另一个参考专利的内容是，-每日打卡-行恒

- 正在追寻dolce
- 7级
- 自律力99.32
- 希望顺利毕业的学生

#戒断# 另一个参考专利的内容是，

先用 coarse model 粗筛一遍要训练的 s-a，只拿貌似安全的 s-a 来训练。

（这样就能避免不安全嘛？又不是某些 off-line rl 拉低 OOD 的 Q estimation）

大致明白了，简单讲一下就好。

1
+7番茄
18只自习生围观
2023年7月19日 17:07打卡
9 月，2 周前有动静
引用
举报

分享

最近犒劳过的人

- 葫芦葫芦
- 6级
- 自律力92.49
- 北京
- 药学生
- ⌬Eicosane
- の 15
- 自律力85.01
- 上海
- 学生

正在追寻dolce
9 月，2 周前
2023年7月19日 18:00
卡主

并不是避免不安全，而是节省计算成本，避免评测没必要评测的（不安全的）状态-动作对。

真是很像我导师的思路呢hhhh

1
1条 1页

合作伙伴

京ICP备11011403号

导航

联系我们

线上在线自习室晚自习。番茄工作法、四象限、打卡、作业清单、作业辅导、作业交流、作业跟踪、作业计划、个人宣传相关内容

© 行恒 2013