加入收藏 | 设为首页 | 会员中心 | 我要投稿 上海站长网 (https://www.021zz.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 运营中心 > 建站资源 > 经验 > 正文

60年技术简史,带你读懂AI的前世今生

发布时间:2019-07-11 10:26:54 所属栏目:经验 来源:佚名
导读:副标题#e# 人类的进化发展史就是一部人类制造和使用工具的历史,不同的工具代表了人类的进化水平。从石器时代、铁器时代、蒸汽时代、电气时代再到现在的信息时代,我们使用更加先进便捷的工具来改变生产和生活。 工具的目的是延伸和拓展人类的能力,我们跑

自然语言处理的任务太多了,除了机器翻译等少数直接面向应用并且有很强实际需求的任务有比较多的数据外,大部分任务的标注数据非常有限。和ImageNet这种上百万的标注数据集或者语音识别几千小时的标注数据集相比,很多自然语言处理的标注数据都是在几万最多在几十万这样的数量级。这是由自然语言处理的特点决定的,因为它是跟具体业务相关的。因此自然语言处理领域一直急需解决的就是怎么从未标注的数据里学习出有用的知识,这些知识包括语法的、语义的和世界知识。

Mikolov等人2013年在《Efficient estimation of word representations in vector space》和《Distributed representations of words and phrases and their compositionality》开始了这段征程。他们提出的Word2Vec可以简单高效的学习出很好的词向量,如下图所示。

60年技术简史,带你读懂AI的前世今生


图:Word2Vec的词向量

从上图我们可以发现它确实学到了一些语义知识,通过向量计算可以得到类似”man-woman=king-queen”。

我们可以把这些词向量作为其它任务的初始值。如果下游任务数据量很少,我们甚至可以固定住这些预训练的词向量,然后只调整更上层的参数。Pennington等人在2014年的论文《Glove: Global vectors for word representation》里提出了GloVe模型。

但是Word2Vec无法考虑上下文的信息,比如”bank”有银行和水边的意思。但是它无法判断具体在某个句子里到底是哪个意思,因此它只能把这两个语义同时编码进这个向量里。但是在下游应用中的具体某个句子里,只有一个语义是需要的。当然也有尝试解决多义词的问题,比如Neelakantan等人在2014年的《Efficient Non-parametric Estimation of Multiple Embeddings per Word in Vector Space》,但都不是很成功。

另外一种解决上下文的工具就是RNN。但是普通的RNN有梯度消失的问题,因此更常用的是LSTM。LSTM早在1997年就被Sepp Hochreiter和Jürgen Schmidhuber提出了。在2016年前后才大量被用于自然语言处理任务,成为当时文本处理的”事实”标准——大家认为任何一个任务首先应该就使用LSTM。当然LSTM的其它变体以及新提出的GRU也得到广泛的应用。RNN除了能够学习上下文的语义关系,理论上还能解决长距离的语义依赖关系(当然即使引入了门的机制,实际上太长的语义关系还是很难学习)。

60年技术简史,带你读懂AI的前世今生


图:LSTM

很多NLP的输入是一个序列,输出也是一个序列,而且它们之间并没有严格的顺序和对应关系。为了解决这个问题,seq2seq模型被提了出来。最终使用seq2seq的是机器翻译。Sutskever等人在2014年的论文《Sequence to Sequence Learning with Neural Networks》首次使用了seq2seq模型来做机器翻译,Bahdanau等人在论文《Neural Machine Translation by Jointly Learning to Align and Translate》里首次把Attention机制引入了机器翻译,从而可以提高长句子的翻译效果。而Google在论文里《Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation》介绍了他们实际系统中使用神经网络机器翻译的一些经验,这是首次在业界应用的神经网络翻译系统。

60年技术简史,带你读懂AI的前世今生


图:LSTM

seq2seq加Attention成为了解决很多问题的标准方法,包括摘要、问答甚至对话系统开始流行这种End-to-End的seq2seq模型。

Google2017年在《Attention is All You Need》更是把Attention机制推向了极致,它提出了Transformer模型。因为Attention相对于RNN来说可以更好的并行,而且它的Self-Attention机制可以同时编码上下文的信息,它在机器翻译的WMT14数据上取得了第一的成绩。

60年技术简史,带你读懂AI的前世今生


图:Neural Machine Translation

(编辑:上海站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读