#戒断# 另一个参考专利的内容是,

先用 coarse model 粗筛一遍要训练的 s-a,只拿貌似安全的 s-a 来训练。

(这样就能避免不安全嘛?又不是某些 off-line rl 拉低 OOD 的 Q estimation)

大致明白了,简单讲一下就好。

  • 1
  • +7番茄
  • 18只自习生围观
  • 2023年7月19日 17:07打卡
  • 9 月,2 周前有动静
  • 引用
  • 举报
最近犒劳过的人

并不是避免不安全,而是节省计算成本,避免评测没必要评测的(不安全的)状态-动作对。

真是很像我导师的思路呢hhhh

合作伙伴

线上在线自习室晚自习。番茄工作法、四象限、打卡、作业清单、作业辅导、作业交流、作业跟踪、作业计划、个人宣传相关内容

行恒 © 行恒 2013