谷歌推出基于TensorFlow强化学习新框架“多巴胺”丨附

来源：互联网 2020-10-18 04:43:28 阅读：-

导读：

郭一璞只想说凹非寺
量子位报导 | 微信公众号 QbitAI

上星期哪个在DOTA2 TI8比赛场上“装B不成功”的OpenAI Five，身后是增强学习的推动。

实际上不仅是OpenAI Five，下围棋的AlphaGo和AlphaGo Zero、玩雅达利经典街机的DeepMind DQN（deep Q-network），都离不了增强学习（Reinforcement Learning）。

如今，Google公布了一个根据TensorFlow的增强学习开源框架，全名是Dopamine。

此外，也有一组Dopamine的课堂教学colab。

和它的姓名Dopamine（胆碱）一样，新架构听上来就激动人心。

清楚，简约，实用

新架构在设计方案时就秉持着清楚简约的核心理念，因此编码相对性紧凑型，大概是十五个Python文档，根据Arcade Learning Environment (ALE)标准，融合了DQN、C51、 Rainbow agent精简和ICML 2018上的Implicit Quantile Networks。

可重现

新架构中编码被详细的检测遮盖，可做为填补文本文档的方式，还可以用ALE来评定。

标准检测

为了更好地让科学研究工作人员能迅速较为自身的念头和现有的方式，该架构出示了DQN、C51、 Rainbow agent精简和Implicit Quantile Networks的玩ALE标准下的那60个雅达利手机游戏的详细训炼数据信息，以Python pickle文档和JSON数据信息文件的格式储存，而且放进了一个数据可视化网页页面中。