加入收藏 | 设为首页 | 会员中心 | 我要投稿 上海站长网 (https://www.021zz.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 运营中心 > 建站资源 > 经验 > 正文

60年技术简史,带你读懂AI的前世今生

发布时间:2019-07-11 10:26:54 所属栏目:经验 来源:佚名
导读:副标题#e# 人类的进化发展史就是一部人类制造和使用工具的历史,不同的工具代表了人类的进化水平。从石器时代、铁器时代、蒸汽时代、电气时代再到现在的信息时代,我们使用更加先进便捷的工具来改变生产和生活。 工具的目的是延伸和拓展人类的能力,我们跑

因为强化学习只是一种方法,它在很多领域都有应用,机器人、控制和游戏是其最常见的应用领域,但是其它领域包括自然语言处理的对话系统,也经常会用到强化学习技术。强化学习和机器学习一样有很多方法:根据是否对环境建模可以分为Model based和Mode free的方法;按照是否有Value函数又分为Value based方法和Policy Gradient,但是又可以把两者结合得到Actor-Critic方法……

我们这里重点关注深度学习和强化学习结合的一些方法。

Google DeepMind在Nature发表的文章《Human-level Control through Deep Reinforcement Learning》首次实现了End-to-End的深度强化学习模型Deep Q-Networks,它的输入是游戏画面的像素值,而输出是游戏的控制命令,它的原理如下图所示。

60年技术简史,带你读懂AI的前世今生

图:Deep Q-Networks

通过Experience Replay来避免同一个trajectory数据的相关性,同时使用引入了一个Target Network 𝑄𝜃′来解决target不稳定的问题,Deep Q-Networks在Atari 2600的49个游戏中,有29个游戏得分达到了人类的75%以上,而其中23个游戏中的得分超过了人类选手,如下图所示。

60年技术简史,带你读懂AI的前世今生


图:Deep Q-Networks在Atari2600平台上的得分

Deep Q-Networks的后续改进工作包括《Prioritized Expeience Replay》、《Deep Reinforcement Learning with Double Q-learning》和《Rainbow: Combining Improvements in Deep Reinforcement Learning》等。

而Policy Gradient类的工作包括《Trust Region Policy Optimization》(TRPO)、Deterministic Policy Gradient Algorithms》(DPG)、《Expected Policy Gradients for Reinforcement Learning》、《Proximal Policy Optimization Algorithms》(PPO)等。

而在游戏方面,Google DeepMind发表的大家耳熟能详的AlphaGo、AlphaGoZero和AlphaZero系列文章。

围棋解决了之后,大家也把关注点放到了即时战略游戏上,包括DeepMind的《AlphaStar: An Evolutionary Computation Perspective》和OpenAI Five在星际争霸2和Dota2上都取得了很大的进展。

此外,在Meta Learning、Imitation Learning和Inverse Reinforcement Learning也出现了一些新的进展,我们这里就不一一列举了。

未来展望

最近一个比较明显的趋势就是非监督(半监督)学习的进展,首先是在自然语言处理领域,根据前面的分析,这个领域的任务多、监督数据少的特点一直期望能在这个方向有所突破。在计算机视觉我们也看到了Google DeepMind的最新进展,我觉得还会有更多的突破。相对而言,在语音识别领域这方面的进展就慢了一些,先不说无监督,就连从一个数据集(应用场景)Transfer到另一个数据集(场景)都很难。比如我们有大量普通话的数据,怎么能够使用少量的数据就能在其它带方言的普通话上进行很好的识别。虽然有很多Adaptation的技术,但是总体看起来还是很难达到预期。

另外一个就是End-to-End的系统在业界(除了Google声称使用)还并没有得到广泛应用,当然这跟语音领域的玩家相对很少有关,况且目前的系统效果也不错,完全推倒重来没有必要(除非计算机视觉领域一样深度学习的方法远超传统的方法)。原来的HMM-GMM改造成HMM-DNN之后再加上各种Adaptation和sequence discriminative training,仍然可以得到SOTA的效果,所以相对来讲使用End-to-end的动力就更加不足。虽然学术界大力在往这个方向发展,但是老的语音玩家(Google之外)并不怎么买账。

(编辑:上海站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读