计算机视觉算法 DINO 论文解读
前言之前了解过很多的cv模型,但大多都是知道个大概。考虑到如果以后想研究具身的话,cv的前置知识是不可或缺的,于是打算把cv的里程碑式工作过一下。今天看到Emerging Properties in Self-Supervised Vision Transformers(DINO)这篇论文,觉得很有意思,写篇博客总结一下自己的看法。要注意的是,我并没有很多的cv前置知识,所以对于文中的很多技术的理解肯定是有偏差甚至错误的,希望大家宽容看待。 核心观点具体的来说,DINO是一种训练模型的宏观的方法论,对于具体应用的模型框架是没有太多的要求的。DINO的训练目标可以理解为让相似(指语义信息)的图片拥有相似的特征表示,不相似的图片拥有不相似的特征表示。 DINO是 *self-distillation with no labels* 的简称,抓住重点的话就是 self-supervised Learning(自监督)方法 和 distillation(蒸馏)...
强化学习算法 Expert Iteration (EXIT) 论文解读
前言最近在尝试看automatic Theorem proving 相关的论文,发现没见过的名词有点多啊。只能是把一些技术相关的原论文拿出来仔细研究一下。其中Thinking Fast and Slow with Deep Learning and Tree...
强化学习实践 openai gymnasium D3QN算法实现 + wandb sweep超参搜索
我的Github实现:gym(GitHub)如果想要使用模型可以直接去GitHub仓库,注释完善且规范。觉得有用请给我点个star! 前言最近将离散动作空间的DRL算法都实现了,也就是从DQN D2QN D3QN 的三个版本。实事求是的讲从D2QN到D3QN所经历的改动不是太大,就是添加了一个dueling net 的网络架构,但是网络的输出仍然是Q。所以我们只要修改Net的类定义就行了。在实现D3QN之后,我又将模型应用到了classic control 的其他场景中,大部分都表现得很好,但是面对mountain car 却怎么都无法收敛。在网上打算看一看其他人的超参怎么设的,却发现了这位仁兄的博客:链接。里面提到了通过对 reward 函数进行修改从而是模型收敛。之前从来没有试过对gymnasium的env进行reward进行修改,试了一下发现效果显著。在这之后其实应该去接着学习连续动作空间的模型的,但是打算先试一试wandb的sweep功能,做一下超参搜索玩玩,确实让我有了一些粗浅的发现。总的来说这篇博客涵盖内容比较杂,包括dueling...
强化学习实践 openai gymnasium D2QN算法实现
我的Github实现:gym(GitHub)如果想要使用模型可以直接去GitHub仓库,注释完善且规范。觉得有用请给我点个star! 前言使用最基础的深度强化学习技巧虽然解决了CartPole-v1 的任务:上篇博客,但是DQN的训练实在是太看脸了,每一次训练都只是有概率收敛(我觉得这很大概率是因为我的超参设置的不够好,但我实在不想再花时间调参了:)),所以我决定在解决下一个问题之前,先学习一下更好的算法,看看能不能在超参完全不变的情况下使agent的表现有一个较大的提高。如标题所见,本篇博客内容是“D2QN算法实现”,实质上从DQN到D2QN的理论创新不难理解,代码改动更是只有两行,所以本篇博客会有一定程度发散。 D2QN简介原文链接Deep Reinforcement Learning with Double...
强化学习实践 openai gymnasium CartPole-v1 DQN算法实现
我的Github实现:gym(GitHub)本篇博客主要是个人实现过程的主观感受,如果想要使用模型可以直接去GitHub仓库,注释完善且规范。觉得有用请给我点个star! 前言最近在学习强化学习,大致过了一遍强化学习的数学原理(视频)。视频讲的很好,但是实践的部分总是感觉有点匮乏(毕竟解决 grid world 方格世界(GitHub) 的问题的很难给人特别大的正反馈),所以就找到了openai gymnaisum...