《RL 致命三角》

《强化学习导论》有云:RL 致命三角包含 bootstrap(根据当前估计进一步估计)、off-policy(探索和 exploit 分开)、approximation(泛化,放弃Q表),三者同时出现会不稳定。这一现象主要是因为,在强化学习中,bootstrap 带来了未来奖励信号的不确定性,approximation 本身就会带来近似误差(行为和 reward 因果关系的错误估计),off-policy 自身有数不平衡采样偏差。缓解致命三角问题的方法包括使用经验回放(Experience Replay)让样本更加独立同分布减少相关性,使用目标网络(Target Network)来稳定估计值函数,以及使用合适的approximation(如深度神经网络)等。

真是有趣的好说法ww

  • 3
  • +9番茄
  • 20只自习生围观
  • 2024年2月26日 20:43打卡
  • 1 月,4 周前有动静
  • 引用
  • 举报
最近犒劳过的人

哥们是做机器学习方向的吗?

哥们是做机器学习方向的吗?

嗯嗯,是噢

嗯嗯,是噢

好嘞好嘞!有机会一起合作哈哈哈哈

合作伙伴

线上在线自习室晚自习。番茄工作法、四象限、打卡、作业清单、作业辅导、作业交流、作业跟踪、作业计划、个人宣传相关内容

行恒 © 行恒 2013