#戒断# 今天上午看看能不能调出 ddpg

现在的事情有: 1. 毕设正常推进:调 ddpg。 2. 毕设故事:整个结构 创新点 之类的,可以先从 hx 师兄的材料入手。 3. GNN:魔改代码(啊这就周二了我哭),搞几个图 trai 1

#戒断# 意识到用 ddpg 是不专业的行为

改成 sac 应该会好一些。最后有时间再改。

#戒断# …为什么会 nan?

勇敢 RL 炼丹师,不怕困难。 加油加油。 (说起来明明昨天有段时间 跑的效果还可以。要不再把模型改回来吧?) 4

#戒断# ppo 的 entropy 崩了?

加油。炼丹师不怕困难。 (况且是师兄已经复现的东西。而且是按理来说绝对能做出来的东西。)

#戒断# 今天天气很冷

晚上摸鱼了,速览了赫赫有名的琅琊榜。 晚上吃了大餐(指食堂二楼)。 心随境转,感觉也不是毫无希望… 充弥了 不理性的 无来由的 令人思维迟缓的 希望。 ……加油。三线推进,无论如何。

#戒断# 感觉 PPO 是在被训的,但是 value 收敛太慢了

如果每步的 reward 都是 -40 多,value 也应该至少 -40 多吧,不该仍然是 -1 多。 调高 lr 试试。 今天开始困了,可能因为打金刚功起了作用。调完 lr 后列个 t 3

#戒断# 看来在 GNN 领域,dgl 比 pyg 好用是被普遍认可的

接下来看看 dgl 怎么用,搞点 demo 跑。 加油加油!

#戒断# 今天上午有点困

按照计划,1. train ppo,2. 搞 ~~灰盒~~ NN 模型。 听着英语学不下去了… 在困的时候,抗干扰能力减弱。也或许是因为听英语才困? anyway,我听英语只是为了考托福, 2

#戒断# 感谢上苍,clash 修好了

能翻墙还是很开心的。 今天中午下午要好好工作。对着 ppt 一项一项做吧。 现在趁着没下雨,赶快跑出去吃饭。 1

#戒断# 先背单词吧

水冷空调过会再看。托福冲冲冲! (虽然还没完全想好为什么要考托福… 一个最直接的原因是,如果我仍打算考,那么现在是最合适的时间,虽然没有什么考的动机。 所以我们先背单词吧。加油,加油。

合作伙伴

线上在线自习室晚自习。番茄工作法、四象限、打卡、作业清单、作业辅导、作业交流、作业跟踪、作业计划、个人宣传相关内容

行恒 © 行恒 2013