先用 coarse model 粗筛一遍要训练的 s-a,只拿貌似安全的 s-a 来训练。
(这样就能避免不安全嘛?又不是某些 off-line rl 拉低 OOD 的 Q estimation)
大致明白了,简单讲一下就好。
并不是避免不安全,而是节省计算成本,避免评测没必要评测的(不安全的)状态-动作对。
真是很像我导师的思路呢hhhh
线上在线自习室晚自习。番茄工作法、四象限、打卡、作业清单、作业辅导、作业交流、作业跟踪、作业计划、个人宣传相关内容
并不是避免不安全,而是节省计算成本,避免评测没必要评测的(不安全的)状态-动作对。
真是很像我导师的思路呢hhhh