德州IT培训趋势:Google开源基于TensorFlow的增强学习框架Dopamine

  • A+
所属分类:计算机培训

Google宣布开源基于机器学习函式库TensorFlow的增强学习框架Dopamine,这个函式库专门用于街机游戏训练环境,解决现存增强学习框架不够灵活的问题,另外,Google还发布了一个网站,允许开发人员视觉化执行多个人工智能代理人训练。

增强学习透过奖励或是惩罚,驱动代理人朝着特定目标前进,近几年有了长足的进展,包括用于围棋对弈的AlphaGo和AlphaGo Zero,以及DeepMind开发来游玩Atari游戏的DQN(Deep Q-Network),还有最近才刚和顶尖Dota 2人类玩家对战过的Open AI Five。Google提到,这类技术的进展很重要,因为这些算法不只能用在游玩游戏,还可使用于发展机器人技术。

这些开发工作需要快速迭代设计,因为通常系统发展并没有明确的开发方向,而且需要破坏既定方法的结构,Google提到,现存大多数的增强学习框架不够灵活也不够稳定,使研究人员无法快速的迭代增强学习的方法,限制了探索更多研究方向的可能,而且这些框架还有相同的问题,那就是重现结果需要花费大量时间,这影响科学验证的重现性。

为了解决这些问题,Google开发了基于Tensorflow的框架Dopamine,目的是为增强学习人员提供灵活、稳定和可重复的开发工具。这个函式库是为街机学习环境设计,并且提供4个基于值的代理人,包括 DQN、C51、Rainbow简化版以及隐分位数网路(Implicit Quantile Network,IQN)。IQN代理人是Google在7月,才于国际机器学习大会(ICML)中发表,而现在开发人员已经可以在Dopamine中使用。

为支持科学应用,Dopamine强调了过程与结果的可重复性,因此Google为Dopamine提供完整程序码测试覆盖,而这些测试能以另外的文档形式提供。而且对于新的研究人员来说,能够根据既定的方法,快速对新想法进行基准测试是一件重要的事,为此,在Dopamine街机学习环境中的60个游戏,Google为4个代理人提供完整的训练资料,格式除了Python的Pickle档案可用于Dopamine系统外,同时也有JSON的资料档案可用在其他框架。

另外,Google也提供可以视觉化查看代理人执行游戏训练资料的网站,以及内含这些代理人已经训练好的深度网络、原始统计日志,以及可以在Tensorboard绘制的Tensorflow事件档案。Google提到,Dopamine的易用性,可以支持渐进式和激进式的研究方法。详细的资料以及程序码可以在GitHub中取得。



发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: