强化学习算法 Expert Iteration (EXIT) 论文解读
前言最近在尝试看automatic Theorem proving 相关的论文,发现没见过的名词有点多啊。只能是把一些技术相关的原论文拿出来仔细研究一下。其中Thinking Fast and Slow with Deep Learning and Tree...
强化学习实践 openai gymnasium D3QN算法实现 + wandb sweep超参搜索
我的Github实现:gym(GitHub)如果想要使用模型可以直接去GitHub仓库,注释完善且规范。觉得有用请给我点个star! 前言最近将离散动作空间的DRL算法都实现了,也就是从DQN D2QN D3QN 的三个版本。实事求是的讲从D2QN到D3QN所经历的改动不是太大,就是添加了一个dueling net 的网络架构,但是网络的输出仍然是Q。所以我们只要修改Net的类定义就行了。在实现D3QN之后,我又将模型应用到了classic control 的其他场景中,大部分都表现得很好,但是面对mountain car 却怎么都无法收敛。在网上打算看一看其他人的超参怎么设的,却发现了这位仁兄的博客:链接。里面提到了通过对 reward 函数进行修改从而是模型收敛。之前从来没有试过对gymnasium的env进行reward进行修改,试了一下发现效果显著。在这之后其实应该去接着学习连续动作空间的模型的,但是打算先试一试wandb的sweep功能,做一下超参搜索玩玩,确实让我有了一些粗浅的发现。总的来说这篇博客涵盖内容比较杂,包括dueling...
强化学习实践 openai gymnasium D2QN算法实现
我的Github实现:gym(GitHub)如果想要使用模型可以直接去GitHub仓库,注释完善且规范。觉得有用请给我点个star! 前言使用最基础的深度强化学习技巧虽然解决了CartPole-v1 的任务:上篇博客,但是DQN的训练实在是太看脸了,每一次训练都只是有概率收敛(我觉得这很大概率是因为我的超参设置的不够好,但我实在不想再花时间调参了:)),所以我决定在解决下一个问题之前,先学习一下更好的算法,看看能不能在超参完全不变的情况下使agent的表现有一个较大的提高。如标题所见,本篇博客内容是“D2QN算法实现”,实质上从DQN到D2QN的理论创新不难理解,代码改动更是只有两行,所以本篇博客会有一定程度发散。 D2QN简介原文链接Deep Reinforcement Learning with Double...
强化学习实践 openai gymnasium CartPole-v1 DQN算法实现
我的Github实现:gym(GitHub)本篇博客主要是个人实现过程的主观感受,如果想要使用模型可以直接去GitHub仓库,注释完善且规范。觉得有用请给我点个star! 前言最近在学习强化学习,大致过了一遍强化学习的数学原理(视频)。视频讲的很好,但是实践的部分总是感觉有点匮乏(毕竟解决 grid world 方格世界(GitHub) 的问题的很难给人特别大的正反馈),所以就找到了openai gymnaisum...