AemaH Blog

Thinking will not overcome fear but action will.

DL之优化方法

对于GD的两类改良

前言 忽然感觉这应该弄成一个专题,毕竟深度学习的那些 从流程也能看出来 几个需要重点思考的:网络结构:「其中还涉及了 激活函数 的选取 层宽度 层深度 核大小等一系列问题」,构建好结构后 什么样的参数是需要的 就涉及了 损失函数的构建,如何朝着这样一个需要的参数前进 就涉及 优化方法的选取,本文主要涉及对于优化方法的选取,后面会谈到激活函数的选取,至于损失函数 会在本文最后一笔带过 毕竟大多...

DL之CNN常见概念

从基本特征和特性到常见结构

前言 大致告一段落了,下午还要把实验整理一波,上午思考了一下 还是吧之前为了面试将机器学习、深度学习、强化学习的内容整理的放在blog,之后就是将前一段时间 弄的DRL的一些实验也放进去; 这里的CNN 其实是某次面试感知岗的时候,被问到池化层的反向传播的时候,才发现自己对于深度学习的一些基础,其实还是不够了解 不能很好地描述,知其然不知其所以然;所以将整体都好好整理了一下,下一步 还是对于...

CART_DBDT_Xgboost

从决策树到xgboost

找机会还是吧xgboost来好好总结一下!! 好吧 其实就是今天,之前对于boost的思想和bagging的思想其实都有所了解,这里直接复制粘贴一波 集成学习的三种思想 然后好好的总结一波其中的boosting 从adaboost到GBDT再到xgboost「其中顺带还会提到回归树」 集成学习 基本思想:由多个学习器组合成一个性能更好的学习器「结合几个模型降低泛化误差」 集成...

Reinforcement Learning

对于强化学习的一些总结

照例开篇的碎碎念,好吧,也知道自己之前缺了多久没有更新,其实我真的也在写真的(认真脸) ,起码前一段时间我就从:Model-based和TD 还有IRL都下笔写了的「这不叫挖坑…」,后来发生一些事情 emmmm 于是也就没写完(长叹气) ; 算了 无论如何先从之前 已经总结好的一些当做一个新的开始吧(握拳) 这一次所坐的主题是强化学习中一些基本问题,包括基础的:model-base...

driving simulator

包括Carla在内的四种驾驶模拟器

其他驾驶模拟器软件 MATLAB 2017 MATLAB作为一类专业的商业数学软件,用于算法开发、数据可视化、数据分析以及数值计算的高级技术计算语言和交互式环境 ;而针对我们所需要的自主驾驶这个领域,有一个Automated Driving System Toolbox;可以实现一些对于感知层数据的操作,比如:自动从车载摄像头采集到的视频进行物体标注 、为驾驶场景合成传感数据、进行多传感...

Reinforcement Learning

值函数和策略梯度

在上一个章节,完成了对于强化学习整体结构的描述,对于常见的强化学习的分类也有所了解,然后在最后描述了关于qtable的实现方法; 在qtable的里面,可以看到 这里我们并没有强制的对于全部的state-action 包含的对应的值函数进行遍历 确定数值,而是单纯的进行了num_episodes次的训练;原因主要包括: 毕竟本质上 还是进行实现一个解决实际问题的算法,而真...

Reinforcement Learning

整体归纳和qtable

一直想写一系列关于对于RL各类思想和算法的总结性的文章,亦或者说是笔记吧; 之前在学校的时候,基于awjuliani的blog 从Q-Table到A3C进行实现了各类RL算法,但是也只是实现 对于其中的算法的分类和关系其实也还是似是而非的感觉,平时的时候 能体会到和感觉到,但是一直没有用语言进行仔细的总结出来,趁这个机会 来说一下吧; 第一篇文章并不会涉及太多的算法实现的问题,更多的还是对...

GAN

实现

不知道上一篇看得怎么样,毕竟GAN也是刚开始看,也只是止步于大致理解的范围 内部的公式也没有详细的推导过几遍,但这里马上会讲一下对于其中G和D的优化更新过程,而对于这部分更新的算法 本质上就如同上一篇「对于等号右边直观地理解」,章节所说的意义,对于D来说只是希望最大化$E_{x~p_{data}(x)}[logD(x)]+E_{z~p_z(z)}[log(1-D(G(z)))]$ ,而...

GAN

相关笔记的整理

先碎碎念几句,七月末的家里还真的是热 好容易下一场雨 迫不及待打开落地窗,被雨扫一脸的感觉 真滴还是不爽的;还是老老实实关上门窗 开空调吧; 在写完A3C后,并没有继续就是写RL的其他算法以及框架,而是之前在微信群里看到个:GAN代码实现的课程;于是也想着就把之前写的GAN的相关笔记整理一下放在这里; 对于GAN的原理的介绍 首先对于其起源,来自于Ian Goodfellow大...

A3C

基于tensorflow 针对摇摆臂这样的连续动作的实现

紧接着上一篇的内容,在上一篇我们大致介绍了关于A3C的起源:actor-critic,以及在此基础上的补充:借助多线程实现多智能体的共同协作探索,并行计算梯度,从而打破了样本件的相关性 ; 在开始说实现之前,像先基于DQN的experience replay方法和A3C的asynchronous来说一下关于off-policy和on-policy; 首先我们要知道两者的来源。强化...