计算机视觉算法 DPT(Vision Transformers for Dense Prediction) 论文解读
前言正在撰写depth anything的论文,在跑官方实现的时候发现自己在阅读论文的时候漏掉了一个满关键的组件:dpt。我觉得这个组件值得细致的学习,于是打算先完成dpt的学习以及博客撰写。先前的博客都是读完论文把东西都弄懂后按照自己理解的重要性撰写的,但是那样实在有点耗时。这一次尝试一下严格按照 abstract、intro、conclusion、related...
计算机视觉算法 DINOV2 论文解读
前言看完了DINO这篇工作,整体还是很有收获的,也是很期待DINOV2会给我带来什么惊喜。但是真的看完整篇论文才会发现其实给我带来的信息增益不是特别的多。跟我学llm时候的情况很像,想要以llama系列的技术报告为支点熟悉llm的体系框架,但是后面几个版本的技术报告内容中的部署细节很多,很难学到目前用的上的只是。DINOV2也花了一些的篇幅在部署细节上,对于这一部分我仍是味同嚼蜡。因为这一部分内容很难通过 理论学习+跟着代码执行过一遍流程 学习方法吸收。但是DINOV2和一代一样做了很多下游任务实验证明方法训练模型所抽取的特征是很好的特征,这一部分我很感兴趣,填补了我对这些下游任务实现的空白(是我见识少的缘故)。(同样,我对作者提及的其他对比算法了解十分有限,所以表述难免错漏。如有发现,欢迎在评论区指出) DINOV2训练数据论文在数据处理上花了挺多篇幅,但是我觉得结论不太能说服我。 DINOV2的数据处理分为三部分:数据获取、数据去重、数据检索。 数据获取图像数据源于网络爬取,将爬取内容中的img...
计算机视觉算法 DINO 论文解读
前言之前了解过很多的cv模型,但大多都是知道个大概。考虑到如果以后想研究具身的话,cv的前置知识是不可或缺的,于是打算把cv的里程碑式工作过一下。今天看到Emerging Properties in Self-Supervised Vision Transformers(DINO)这篇论文,觉得很有意思,写篇博客总结一下自己的看法。要注意的是,我并没有很多的cv前置知识,所以对于文中的很多技术的理解肯定是有偏差甚至错误的,希望大家宽容看待。 核心观点具体的来说,DINO是一种训练模型的宏观的方法论,对于具体应用的模型框架是没有太多的要求的。DINO的训练目标可以理解为让相似(指语义信息)的图片拥有相似的特征表示,不相似的图片拥有不相似的特征表示。 DINO是 *self-distillation with no labels* 的简称,抓住重点的话就是 self-supervised Learning(自监督)方法 和 distillation(蒸馏)...
强化学习算法 Expert Iteration (EXIT) 论文解读
前言最近在尝试看automatic Theorem proving 相关的论文,发现没见过的名词有点多啊。只能是把一些技术相关的原论文拿出来仔细研究一下。其中Thinking Fast and Slow with Deep Learning and Tree...
强化学习实践 openai gymnasium D3QN算法实现 + wandb sweep超参搜索
我的Github实现:gym(GitHub)如果想要使用模型可以直接去GitHub仓库,注释完善且规范。觉得有用请给我点个star! 前言最近将离散动作空间的DRL算法都实现了,也就是从DQN D2QN D3QN 的三个版本。实事求是的讲从D2QN到D3QN所经历的改动不是太大,就是添加了一个dueling net 的网络架构,但是网络的输出仍然是Q。所以我们只要修改Net的类定义就行了。在实现D3QN之后,我又将模型应用到了classic control 的其他场景中,大部分都表现得很好,但是面对mountain car 却怎么都无法收敛。在网上打算看一看其他人的超参怎么设的,却发现了这位仁兄的博客:链接。里面提到了通过对 reward 函数进行修改从而是模型收敛。之前从来没有试过对gymnasium的env进行reward进行修改,试了一下发现效果显著。在这之后其实应该去接着学习连续动作空间的模型的,但是打算先试一试wandb的sweep功能,做一下超参搜索玩玩,确实让我有了一些粗浅的发现。总的来说这篇博客涵盖内容比较杂,包括dueling...
强化学习实践 openai gymnasium D2QN算法实现
我的Github实现:gym(GitHub)如果想要使用模型可以直接去GitHub仓库,注释完善且规范。觉得有用请给我点个star! 前言使用最基础的深度强化学习技巧虽然解决了CartPole-v1 的任务:上篇博客,但是DQN的训练实在是太看脸了,每一次训练都只是有概率收敛(我觉得这很大概率是因为我的超参设置的不够好,但我实在不想再花时间调参了:)),所以我决定在解决下一个问题之前,先学习一下更好的算法,看看能不能在超参完全不变的情况下使agent的表现有一个较大的提高。如标题所见,本篇博客内容是“D2QN算法实现”,实质上从DQN到D2QN的理论创新不难理解,代码改动更是只有两行,所以本篇博客会有一定程度发散。 D2QN简介原文链接Deep Reinforcement Learning with Double...
强化学习实践 openai gymnasium CartPole-v1 DQN算法实现
我的Github实现:gym(GitHub)本篇博客主要是个人实现过程的主观感受,如果想要使用模型可以直接去GitHub仓库,注释完善且规范。觉得有用请给我点个star! 前言最近在学习强化学习,大致过了一遍强化学习的数学原理(视频)。视频讲的很好,但是实践的部分总是感觉有点匮乏(毕竟解决 grid world 方格世界(GitHub) 的问题的很难给人特别大的正反馈),所以就找到了openai gymnaisum...