ai基础名词

线性回归

回归就是通过一点找条尽可能在所有点中间的线

线性就是回归找的是直线

线性回归就是通过图像上的散点

找一条尽可能在所有点钟间的直线,以预测未来的趋势

最后因为直线的位置可以由参数确定,所依找直线的过程就是求参数的过程

估计线性模型的算法是最小二乘法

多重回归

多重回归可以做相同的事情

比如通过父母的身高预测子女的身高,但是除了父母的身高还有别的因素会影响孩子的身高,比如营养水平,运动量

比如加入营养水平,那么就用父母身高和营养水平来预测孩子的身高,还可以通过比较发现营养水平大小对身高没有太大的影响,那么就可以把营养水平排除在预测子女身高的模型之外

逻辑回归

线性回归预测的是连续变量,逻辑回归预测的是二分的类别,比如父母的身高是否会影响孩子打篮球

逻辑回归会把一条s形曲线适配到函数里

他预测出来的是孩子喜欢打篮球的概率

评估逻辑回归的最常用的算法是最大拟然法

KNN

K-Nearst neighbors:k近邻算法

knn的思想非常简单,要判断一个新数据的类别,就要看他的邻居都是谁

加入任务是分类苹果,虽然不知道水果是哪个,但通过观察大小和颜色,就能找到最进中的位置,靠近苹果还是梨

knn中的k指的是k个邻居,k=3就是通过离得最近的三个样本来判断新数据的类别

计算距离的时候既可以用欧氏距离,也可以用曼哈顿距离,对knn来说k的取值非常重要,k的取值太小和任意受到个例影响,k的值太大就会受到距离较远的特殊数据影响,k的取值受问题自身和数据集大小决定,很多时候要靠反复尝试

场景:电商视频网站找到与你类似的用户,跟你他们的喜好推荐你商品或者视频

决策树

决策树从根节点走到叶子节点,所有的数据最终会落到叶子结点,既可以做分类也可以做回归,决策树是一颗二叉树地柜分割数据

树有根节点:第一个选择点

非叶子节点与分支:中间过程

叶子节点:最终决策结果

训练节点:从给定的训练集中构造一颗树来(从根节点开始选特征,如何进行特征切分)

测试阶段:根据构造出来的树模型从上大小去走一遍就好了

一旦构造好了决策树,那么分类或者预测任务就简单了,只需要走一遍就可以了

为了构建决策树人们找到了一个衡量标准熵

在热力学中,熵用来被表示一个系统内部的混乱程度,在决策树中,熵代表的是分支下样本种类的丰富性。样本种类越多越混乱,熵就越大,如果分支下的样本完全属于同一类熵就等于0

构造树的基本思路,是随着树的深度也就是层数的增加,让熵快速降低,熵降低的速度约快代表决策树分类效率越高。

决策树最大的优点是天然的可解释性。苹果之所以是好苹果,是因为它大,红甜。如果训练树能把样本完美分类,那它一定是过拟合的。解决方法很简单。

去掉一些分支,剪枝有俩种预减枝是在训练开始前规定条件,比如树达到某一深度就停止训练,后减枝是先找到树。再依据一定的条件限制叶子节点的个数,去掉一部分分支

SVM支持向量机

想知道新拿到的水果是梨还是苹果,除了KNN画个圈,还有什么好办法,也可以画条线,将俩者所在的空间做出区分

当新样本落在苹果一侧时就是苹果不然就是梨,这条线就是SVM支持向量机,听上去很简单

但是有多种画法,那条线才是最合适的,除了界限样本与线的距离也同样有意义,它代表着样本分类的可信程度,以苹果这一次为例,与线的距离最远的苹果是苹果的可能性最高,离得越近是苹果的可能性就越低,我们的目标是在俩种样本中间,找到能让所有样本分类可信程度最高的那条线

只要找到线附近的样本让他们与线的距离越远越好,这个距离被称为分类间隔,决定了线的样本被称为支持向量。这就是支持向量机名字的由来

如果样本的分布有交叉怎么办,那我们就关注这些无法被线正确分类的样本与线之间的距离,找到能最小化这个距离的线,如果样本的分布并不理想无法用直线区分部的区间怎么办?,那么就通过变化映射到一个能用直线分布的空间

在深度学习出现前随机森林和SVM是最好用的分类方法,SVM对样本依赖小不会过拟合,小样本也能取得不错的效果

文本分类,垃圾邮件识别,图像分类SVM应用广泛

K-Means

SVM和KNN可以根据已有水果认出新水果的类别,这一切的基础是我们已经确切的认出了不少水果的种类

如果在一切开始之前我们只知道他们的分布,不知道苹果是苹果这时候我们就需要K均值算法,在K-Means中,k代表的是样本数量的类别

假设k等于2就代表我们希望将手中水果分成俩类,K-means的第一步是在空间中随机选定俩个样本作为分类基础,计算比较其他样本与他们之间的距离,离谁近就归为哪类,分类完成后就开始迭代,先找到俩个类别的中心,计算所有样本与中心点的距离,按照距离远近再进行分类

接着是第二次迭代寻找新的分类中心,计算距离重新分类,重复这个过程,直到某次分类的结果与上一次结果相同就停止训练。这时水果就被分成了俩类然后最后就能分出梨和苹果

L-means能自主寻找数据的内部结构,它基于这样的假设,特征空间中相近的俩个样本,很可能同属于一个类别,这种通过分析空间中的分布状况进行分类的方法被称为聚类,不需要标签信息,K-means自然属于无监督学习,它可解释性号,实现简单,分类效果也不错

缺点:准确度不如监督学习,对k值的选择也很敏感

CNN卷积神经网络

卷积神经网络的核心当然是卷积

在cnn的卷积层中存在着一个个填充着数字的小格子

原始图片经过输入层厚将变为灰度或是RGB数值填充的矩阵

将卷积核与图片矩阵对其,对应各自中的数字相城后再相加,再将得到的数字填入新矩阵这就是卷积,卷积核以一定的距离在图像上移动运算,这被称为步长,得到的新矩阵能反应图像的部分特征,因此被称为特征图,他们即是这一层的输出也是下一层的输入,设定不同的卷积核,我们就能找到各种各样的特征。

要如何设计他们呢?对于CNN来说训练就是让网络根据已有的数据和它们的标签,自动确定卷积核中的数字

cnn还有另外俩个配件

池化层和全连接层

池化层能选取图像的主要特征常用的maxpooling是保留窗口覆盖区域的最大数值,矩阵被池化后参数会大量减少

全连接层通常在网络的最后,能将提取到的特征集合在一起,给出图片可能是某种事务的概率,CNN非常擅长处理图片

除了图片外,将声音当做图谱处理可以完成语音识别,将词语作为向量处理可以完成机器翻译

GNN

通常神经网络的输入是图片,字符或是图片信号,GNN的输入是图(类似数据结构中的图),这里的图并非指图片,而是由节点和边组成的图

为什么需要图神经网络,与图片文字语音相比,图能表达的内容太广泛了

一些计算机视觉和计算机语言处理任务同样可以适用于gnn

RNN循环神经网络

在识别图像时,输入的每张图像都是孤立的,认出一张图片是苹果不会对下一张图片是梨造成影响,但对于语言来说顺序是十分重要的,我吃苹果和苹果吃我,比如吃后面大概率是代表食物的名词,为了捕捉数据的这种关联,人们找到了RNN的基础结构仍然是神经网络,用来记录数据输入时网络的状态,在下一次输入数据,网络必须要考虑小盒子中保存的信息,随着数据一次次的输入,存储的信息也再不断更新,盒子中的信息被称为隐状态

RNN最常用的应用领域就是自然语言处理,

  • 机器翻译是寻找相同的意义序列,在不同语言中的表达
  • 诗歌生成是基于一个主题按照一定的规则输出有逻辑的词语序列

改变俩端的信息类型,输入图片输出句子,就是看图说话,语音同样可以看做声音信号按时间顺序组成的序列,语音识别和语音生成同样在RNN的能力范围

股票价格同样也可以看做一个受时间影响的序列,很多量化交易模型的建立就是基于这样的认知的。不过RNN有不可忽视的缺陷,数据输出的越早,在隐状态中占据的影响就越小,也就是说如果一个句子很长,RNN就会忘记开始时说了什么。

于是就有了RNN的改良版,LSTM长短时记忆模型。

LSTM长短时记忆模型

rnn有一定的记忆能力,不幸的是他只能保留短期记忆,在各类任务上表现并不好,人类的记忆也是有取舍的,我们不会记住每时每刻发生的所有事情,会留下重要的丢掉不重要的

参考这种机制人们改造了小盒子,并找到了门这种机制,门是用来决定信息如何保留的小开关,它的数值都是0-1之间,1是完全保留,0是完全舍弃

新的小盒子上又三个门,其中

  • 遗忘门决定了小盒子里要保留多少原有信息,也就是丢掉了哪些不重要的记忆
  • 输入门决定了当前有多少信息要被保存到小盒子里面,也就是记住哪些新东西
  • 输出门决定了多大程度的输出小盒子中的信息

经过改造的小盒子,即能通过输入门对当前网络状态有所了解,又能利用遗忘门留下过往重要信息,这就是LSTM长短时记忆模型

通过改变小盒子结构,LSTM还有很多变体如MGU,SRU

不过最受欢迎的还是门控循环单元GRU,GRU只有俩个门,更新门是以往门和输入门的结合体,决定丢弃旧信息和新信息,重置门决定多少上一时刻网络状态,用来捕捉短期记忆用了,结构更简洁,计算更搞笑,效果与LSTM相比更加高效,GRU正变得越来越流行

BP算法

真正决定神经网络好不好用的是神经元之间的权重和神经元的阈值,如何确定这些数字,我们大部分都在使用反向传播也就是常说的bp算法

即根据网络输出的答案与正确答案之间的误差,不断调整网络参数,假设我们正在训练一个图片分类网络,输入一张图片逐层向前计算后,网络会给出它属于某一事务的概率

由于每个神经网络的初始参数是随机赋予的,大部分时间答案都不尽如人意。这时我们可以根据网络输出与正确答案之间的差距,从最后一层开始逐层向前调整网络的参数。如果误差值为负,我们就提升权重,反之就降低权重,调整的程度受一定的比率即学习率的制约,它像一个旋钮,用来控制参数调整程度的高低,在一次次输入数据和反向调整的过程中,网络就能逐渐给出不错的输出。

由于强大的调整能力BP算法控制下的神经网络很容易过拟合,也就是在训练数据上表现得很好,却认不出新数据是什么,这时我们可以采用提前停止策略,也就是将数据按一定比例划分为训练集和验证集。用训练集调整参数,用验证集估算误差。如果训练集误差降低的同时验证集的误差在升高,就代表网络开始过于适应训练集,这时既可以结束训练

随机森林

随机森林是决策树的升级版,随机指的是树生长的过程,世上没有俩片相同的树叶,随机森林中的树也各不相同

在构建决策树时,我们会从随机数据中有放回的随机选取一部分样本,同样的我们也不会使用数据的全部特征而是随机选取特征进行训练,每棵树使用的样本特征各不相同,训练的结果也各不相同,为什么要这么做,在训练的最初,我们并不知道哪些是异常样本,也不知道哪些特征对分类结果的影响大,随机的过程降低了俩者对分类结果的影响,随机森林的输出结果由投票决定,如果大部分决策树认为册数数据是好苹果,那我们就认为是个好苹果。这很像人类的民主决策。

因为树与树之间的独立,我们可以同时训练,不需要花费太长时间,随机的过程让它不容易过拟合,能处理特征较多的高维数据,也不需要做特殊的选择,合理训练后准确性很高,不知道使用什么分类方法时,先试试看随机森林总没错

在机器学习中随机森林属于集成学习,也就是将多个模型组合起来解决问题,这些模型会独立学习,预测,再投票出结果,准确度往往比单个高。

集成学习内部不必是同样的模型,除了决策树还可以使用神经网络等其他模型,同样的,集成学习内部不必是同样的模型,神经网络和决策树可以共存于一个系统之中

transformer

处理机器翻译任务时用什么模型比较好,RNN是个不错的选项,单词的先后顺序会影响句子的意义,擅长捕捉序列关系的它非常合适,不过对于翻译来说,句子之间的单词数量是一一对应的。

受限于结构RNN只能实现N to N,1 to N,或是Nto1,对于NtoM的问题很是头疼,人们找到了seq2seq,一个拥有编码器Encoder和解码器Decoder的模型

Encondor和Decoder依然是RNN网络,不过这次先由Encoder提取原始句子的意义,再由Decoder转换成对应的语言,依靠意义这一中介,seqtoseq成功解决了俩端单词数不对等的情况,新的问题出现了,意义单元能够存储的信息是有限的,如果一个句子太长,翻译精度就会下降。于是人们找到了Attehtion注意力机制,在SeqtoSeq的基础上,生成每个单词时,都有意识的从原始的句子中提取生成单词时最重要的信息,成功拜托了输入序列的长度限制,这样的问题是,这样的计算方式太慢了。RNN需要逐个看过句子中的单词才能给出输出既然Attehtion这么好用,人们就进一步找到了self-Attehtion,自注意机制,先提取每个单词的意义,再根据生成信息,这样的结构不支持并行计算,效率更高,也很接近人类的翻译,这就是transformer,不仅是机器翻译,transformer横扫自然语言处理,在文本摘要文本生成,chatbot等任务上表现同样出色

BERT

机器是如何理解语言的,就像图像有像素组成,像素由RGB数值表示,我们没有办法让机器直接表示,需要转换成机器能明白的东西,比如由数字组成的向量

为什么是向量?比如苹果和梨都是水果,它们的距离就会比苹果和猫更近,这些向量是如何得到的?机器学习的出现,让我们不必一一为单词设计向量,而是将收集好的模型句子,文章等数据交给模型,由它为单词们找到最合适的位置,bert就是帮助我们知道啊词语位置的模型之一,它的诞生源于transformer

既然Encoder能将语言的意义很好的抽离出来,那么直接将这部分独立,也许能很好的对语言做出表示

除了结构,人们还为bert设计了独特的训练方式,其中之一就是有遮挡的训练,在收集到的预料中会随机覆盖百分之15的词汇,让bert去猜这些数字是什么。此外还会输入成组的句子,由bert判断俩个句子是否相连。前者让bert更好的依据语境做出预测,后者让bert对上下文关系由更好的理解,在完成不同的自然语言处理。需要将已经训练好的bert依据任务目标,增加不同功能的输出层联合训练,

  • 比如文本分类就增加了分类器。输入句子输出类别
  • 阅读理解增加了一个全连接层:输入问题的文章,输出答案的位置,bert只需要根据任务做出微调即可

GPT

transformer的Encoder变成了BERT,Decoder变成了GPT

与bert相比GPT诞生的时间更早,同样是需要面对不同任务进行微调的语言模型,不过由于刚面试时效果不如bert,起初并没有受到许多关注,制造它的OpenAi并没有放弃,在提升网络层数和训练数据量后推出了GPT-2

GPT-2不仅能承担机器翻译文本摘要等基于原始文本信息的任务,还能完成新闻写作这类无中生有的任务

意识到方向正确OpenAI扩展到45TB,最终获得了拥有1750亿参数,大小超过700G的庞然大物,GPT3,在使用GPT3时直接输入问题就能得到答案,给出英文和指示符就能得到对应的中文翻译,不需要再训练也不需要继续调试就能直接使用

这就是所谓的Zero-Shot Learning,零样本学习与语言模型相比,GPT3更接近一个包含知识语境理解和语言组织能力的数据库,结构决定了功能,Decoder的每一步输出都基于上一步输出的内容,这使得生成称为GPT最强大的能力

Attention注意力机制

简单来说attention是一种简化方法,它可以从纷繁复杂的输入信息中,找出对当前输出最重要的部分,一个典型的attention包括三部分QKV

Query,key,value成组出现,通常是源语言,原始文本等已有信息,通过计算q与key之间的相关性,得出不同的K对输出的重要程度,再与对应的V相乘求和,就得到了q的输出,以阅读理解为例,Q是问题,k和v是原始文本,计算与k的相关性,让我们找到文本中最重要的部分利用V得到答案

Attention有不少进化形式,比如self-Attention自注意力机制,self-Attention,只关注输入序列元素之间的关系,通过将输入序列直接转换为QKV,在内部进行Attention计算,就能很好的捕捉文本的内在联系,对其做出再表示,另一种miti-head-attention多头注意力机制,则是在自注意力的基础上,使用多种变化生成的QKV进行欲运算,再让它们对相关性的结论综合起来。进一步增强slef-attention的效果

借助transformer,bert等形式,attention在nlp领域大放异彩,事实上attention最早诞生于计算机视觉领域,无论是图片分类图片藐视还是视频描述,attention都能在输出结论时指出它注意到的图像区域

GAN对抗生成网络

人脸检测,图像识别,语言识别,机器总是在现有基础上做出描述和判断,能不能创造这个世界不存在的东西

GAN就是为此而来,GAN全名生成对抗网络,它包含三个部分,生成判别和对抗,生成指的是俩个独立模块,其中生成器负责随机向量产生内容,这些内容可以是文字图片也可以是音乐

判别器用来判断接收到的内容是否是真实的,通常会给出一个概率代表内容的真实程度,俩种使用何种网络并没有规定,擅长处理图片的CNN,常见的全连接,只要能完成相应的功能既可以

接下来是对抗,这指的是GAN的交替训练过程,以图片生成为例,先让生成器产生一些假图片,和收起到的真图片一起给判别器,给真的高分给假的低分,当判别器能熟练判断现有数据之后,在让生成器从判别器出获得高分为目标,生成更好的假图片,直到能骗过判别器,重复这一过程,直到判别器对任何图片预测的概率都是0.5也就是无法分辨图片的真假,就停止训练

我们寻俩gan的目标是获取一个足够好用的生成器,也就是生成足够以假乱真的内容,能完成类似功能的还有玻尔兹曼机,变分自编码器等等,它们被称为生成模型

拓展

生成判别相互对抗,GAN这样的GAN看上去非常厉害,但是GAN非常难训练,既然目标是骗过判别器,那么生成器只需要一直生成一种能骗过判别器的假图片就能完成任务,这就是模式崩溃,不仅如此生成器还很会钻空子,比如判别器根据有眼睛,有皮毛来判断图片中的狗是不是真的,生成器就会生成三个眼睛的狗

为了解决这个问题,人们找到了WGAN,W指的是Wasserstein距离,简单来说以它为依据的判别器不仅能生成内容与真实内容有多相似,还能为生成改进方向给出指导GAN有非常多的变体,除了改变判断基准,还可以更改网络类型,DCGAN是生成器和判别器均为卷积神经网络的GAN,只不过这一次我们会将CNN的结构倒过来,让生成器线确定轮廓等高级特征,再逐步细化低级特征,生成器和判别器的数量也可以改变

CycleGAN能将简笔画编程实物照片,它有俩个生成器和俩个判别器,其中一个生成器负责根据简笔画生成照片,并让这些照片尽可能通过判别器审查,另一个生成器负责根据照片生成简笔画,让生成的内容尽可能符合简笔画判别器的要求,让经过俩次转换的内容尽可能与原始内容一致。我们就有了俩个能在简笔画和真实照片之间转换的生成器

迁移学习

会骑自行车就更容易骑摩托,会英语就更容易学习法语,在机器学习中有不少任务是相似的,比如区分图片是猫还是狗与区分苹果与梨都是分类图像

有没有办法让机器在实现前者后根据经验来实现后者,在此前视频中提到过,卷积神经网络前几层是在提取图像特征,直到最后的全连接分类

提取特征的过程很是相似,可不可以将训练好的猫狗分类的前几层拿出来直接使用,再用苹果与梨的数据训练新的全连接层完成分类

像这样利用数据任务,模型间的相似性,将训练好的内容应用到新任务上,被称为迁移学习

由于这一过程发生在俩个领域间,已有的知识和数据,也就是被迁移的对象称为源域,被赋予经验的领域被称为目标域,迁移学习不是具体的模型,更像是解题思路。我们使用迁移学习的原因有很多,有时是目标领域的数据太少,需要标注数据更多的源域的帮助,有时是为了实现个性化应用

比如预料匮乏的小语种翻译,缺乏标注的医疗影像数据识别,面向不同领域快速部署对话系统,都是迁移学习擅长的应用,此前讲到过的transformer,bert这类预训练语言模型,微调后能完成不同的任务,这是迁移学习在NLP领域的应用

AUTOML

一个完整的机器学习通常包含四部

  • 数据准备:数据清晰很增强
  • 特征构成:特征的选择和提取
  • 模型生成:模型和优化的方法选择
  • 模型评估:模型的训练和调优

每一步都无法省略,由无数问题要解决,人满找到了AUTOML:自动化机器学习,实现自动模型构建,筛选的技术

对于AUTOML来说,模型的生成和评估是最难的,也是最重要的部分,构建模型就像是搭积木,第一步确定哪些零件可用,为此我们需要先将卷积,池化等可用零件编码,定义一个搜索空间在这个范围内进行筛选,接下来是确定搜错策略,也就是以一定的方法在庞大的零件库中,找到最合适的零件以及拼接他们的方法。

此外还需要一个评价标准用来测试搭建好的模型能不能用,就像是用手推一下确定积木的稳固。在搜索模型的过程中我们会用到许多机器学习的技术,由于深度学习的流行,神经网络架构搜索是目前最常被用到的方法,神经网络搜索架构的基础是一个RNN网络,通过训练它生成模型,不断评估这些模型在验证集上的准确率后反馈调整,来提升RNN网络的生成能力,一个好用的AUTOML平台会覆盖机器学习的所有步骤,甚至可以完全不理解AutoMl是什么,只要准备好数据,就能得到模型

梯度下降

根据已有数据的分布来预测可能的新数据,这是回归,希望有一条先将数据分割成不同类别,这是分类,无论是回归还是分类,我们的目标都是让搭建好的模型尽可能的模拟已有的数据,除了模型的结构,模型能否模拟成功的关键是参数,只有几个参数还好,模型的参数成千上万,需要让模型自己去寻找,这就是我们常说的学习或是训练,在训练过程中,我们通常会使用一个工具来帮助模型调整参数,它就是损失函数,什么是损失函数?

在训练开始之前,模型代表的部分与真实数据会存在一定的差异,我们以一个函数去表示误差,这个函数就是损失函数,有时候也叫误差函数,既然损失函数代表误差,那么我们找到损失函数值最小的位置,就等于找到了正确的分布,如何去找这个位置?如果我们的损失函数是一个开口向上的二次函数,导数就是我们最好的向导。导数为0的位置是二次函数的最低点,无论从哪里开始只要不断像导数最低值更低的方向调整,就能找到损失函数的最低点,真实的损失函数像崎岖不平的山区,找到最低点没那么容易,这时我们就需要梯度,虽然它也不知道最低点在哪,但可以像导数一样慰问指出乡下的方向,顺着它的指引我们总会来到山下

梯度下降就是沿着梯度所指向的方向一步一步向下走,去寻找损失函数最小值的过程,然后我们就找到了接近正确的模型

强化学习

与监督学习无监督学习类似强化学习并不是特定的模型和算法,指的是训练方法,在强化学习中做出决策的一方被称为agent主体,他存在于环境中,主题每做出一个动作环境都会给予反馈。主体会在评估反馈后决定下一个动作,对于强化学习来说一切动作的基础都是回报,它的目标是长期,也就是未来的回报尽可能的大。以下棋为例,每当落下一子,对方都要落下一次,这时主题就需要认识新的环境,分析判断后再行动,主体的目标是在尽可能多的器具中获胜

由于主题的每个行为都会改变环境,这决定了强化学习无法使用数据集来训练,只能通过真实环境模拟器产生数据来学习,由于计算量大,效率低,alphago和游戏ai外落地应用并不多,事实上现实世界中存在着许多强化学习的问题,推荐系统每次推荐都会影响人们购买,系统需要根据新的市场数据给出新的推荐

股票市场中每个人每时每刻都买入卖出都会影响股价,交易系统需要理解新的环境再行动

强化学习可以分为俩类,一类是基于模型的,试图用模型模拟真实环境,另一类是无模型的,这里的无模型值得是不模拟环境,只根据反馈数据构建关于回报的模型,在种种学习策略中,强化学习是最接近人的学习方式,主体就是蹒跚学步的孩子,卖出的每一步都在根据现实世界的反馈,不断调整自己的姿态在跌倒中学会行走

深度强化学习

强化学习的主体会依据环境采取行动,以下棋为例,就是观察棋局决定落子,担任主体的可以是各种模型,当然也可以使用神经网络,如果输入的是棋局的画面,我们可以使用处理图像的CNN卷积神经网络,想要考虑前后步之间的联系,既可以使用擅长处理序列的RNN神经网络,像这样使用神经网络构建强化学习,就是深度强化学习,深度强化学习是一个大家庭,如果我们将关注点放在回报上,用数值Q表示特定状态下采取某行动的收益,并将计算Q的工作交给神经网络,就是DQN,增加一个对Q值谨慎的网络,平衡俩者之间的看法,防止主体过于激进这是Double DQN,为了提升探索能力,适当在网络中增加噪音,增强主体的随机性,这是NoisyNet将他们综合器俩就是Rainbow

我们也可以将重点放在动作的选择上,如果一个重点能使最终回报变大,就增加这个动作出现的概率,反之就减少,这就是策略梯度,如果我们让选择动作的网络担任主体,关注回报的网络担任老师,为主体的表现打分提供指导这是Actor-Citic,使用多个这样的网络同时探索环境,并将采集到的数据交由自主网络更新参数这是A3C,游戏,机械臂,自动驾驶,强化学习面对的情景多种多样,环境行为回报很难穷尽

只要有输入就一定有输出,神经网络面对没见过的情况也能做出选择,这就是我们使用深度强化学习的原因

Last modification:June 18, 2023
如果觉得我的文章对你有用,请随意赞赏