abstcol's blogs

发表于2025-03-14|tech|deeplearning•theory•DRL•model based

前言最近在尝试看automatic Theorem proving 相关的论文，发现没见过的名词有点多啊。只能是把一些技术相关的原论文拿出来仔细研究一下。其中Thinking Fast and Slow with Deep Learning and Tree...

强化学习实践 openai gymnasium D3QN算法实现 + wandb sweep超参搜索

发表于2025-03-10|tech|deeplearning•DRL•practice

我的Github实现：gym（GitHub）如果想要使用模型可以直接去GitHub仓库，注释完善且规范。觉得有用请给我点个star！前言最近将离散动作空间的DRL算法都实现了，也就是从DQN D2QN D3QN 的三个版本。实事求是的讲从D2QN到D3QN所经历的改动不是太大，就是添加了一个dueling net 的网络架构，但是网络的输出仍然是Q。所以我们只要修改Net的类定义就行了。在实现D3QN之后，我又将模型应用到了classic control 的其他场景中，大部分都表现得很好，但是面对mountain car 却怎么都无法收敛。在网上打算看一看其他人的超参怎么设的，却发现了这位仁兄的博客：链接。里面提到了通过对 reward 函数进行修改从而是模型收敛。之前从来没有试过对gymnasium的env进行reward进行修改，试了一下发现效果显著。在这之后其实应该去接着学习连续动作空间的模型的，但是打算先试一试wandb的sweep功能，做一下超参搜索玩玩，确实让我有了一些粗浅的发现。总的来说这篇博客涵盖内容比较杂，包括dueling...

强化学习实践 openai gymnasium D2QN算法实现

发表于2025-03-06|tech|deeplearning•DRL•practice

我的Github实现：gym（GitHub）如果想要使用模型可以直接去GitHub仓库，注释完善且规范。觉得有用请给我点个star！前言使用最基础的深度强化学习技巧虽然解决了CartPole-v1 的任务：上篇博客，但是DQN的训练实在是太看脸了，每一次训练都只是有概率收敛（我觉得这很大概率是因为我的超参设置的不够好，但我实在不想再花时间调参了：）），所以我决定在解决下一个问题之前，先学习一下更好的算法，看看能不能在超参完全不变的情况下使agent的表现有一个较大的提高。如标题所见，本篇博客内容是“D2QN算法实现”，实质上从DQN到D2QN的理论创新不难理解，代码改动更是只有两行，所以本篇博客会有一定程度发散。 D2QN简介原文链接Deep Reinforcement Learning with Double...

强化学习实践 openai gymnasium CartPole-v1 DQN算法实现

发表于2025-03-05|tech|deeplearning•DRL•practice

我的Github实现：gym（GitHub）本篇博客主要是个人实现过程的主观感受，如果想要使用模型可以直接去GitHub仓库，注释完善且规范。觉得有用请给我点个star！前言最近在学习强化学习，大致过了一遍强化学习的数学原理（视频）。视频讲的很好，但是实践的部分总是感觉有点匮乏（毕竟解决 grid world 方格世界（GitHub）的问题的很难给人特别大的正反馈），所以就找到了openai gymnaisum...