上星期哪个在DOTA2 TI8比赛场上“装B不成功”的OpenAI Five,身后是增强学习的推动。 实际上不仅是OpenAI Five,下围棋的AlphaGo和AlphaGo Zero、玩雅达利经典街机的DeepMind DQN(deep Q-network),都离不了增强学习(Reinforcement Learning)。 如今,Google公布了一个根据TensorFlow的增强学习开源框架,全名是Dopamine。 此外,也有一组Dopamine的课堂教学colab。 和它的姓名Dopamine(胆碱)一样,新架构听上来就激动人心。 清楚,简约,实用 新架构在设计方案时就秉持着清楚简约的核心理念,因此 编码相对性紧凑型,大概是十五个Python文档,根据Arcade Learning Environment (ALE)标准,融合了DQN、C51、 Rainbow agent精简和ICML 2018上的Implicit Quantile Networks。 可重现 新架构中编码被详细的检测遮盖,可做为填补文本文档的方式,还可以用ALE来评定。 标准检测 为了更好地让科学研究工作人员能迅速较为自身的念头和现有的方式 ,该架构出示了DQN、C51、 Rainbow agent精简和Implicit Quantile Networks的玩ALE标准下的那60个雅达利手机游戏的详细训炼数据信息,以Python pickle文档和JSON数据信息文件的格式储存,而且放进了一个数据可视化网页页面中。 此外,新架构中也有训炼好的深层互联网、初始统计分析系统日志,及其TensorBoard标明好的TensorFlow恶性事件文档。 传送器开源框架資源 Dopamine谷歌博客: https://ai.googleblog.com/2018/08/introducing-new-framework-for-flexible.html Dopamine github免费下载: https://github.com/google/dopamine/tree/master/docs#downloads colabs: https://github.com/google/dopamine/blob/master/dopamine/colab/README.md 手机游戏训炼数据可视化网页页面: https://google.github.io/dopamine/baselines/plots.html 相关资料 ALE标准: https://arxiv.org/abs/1207.4708 DQN(DeepMind): https://storage.googleapis.com/deepmind-media/dqn/DQNNaturePaper.pdf C51(ICML 2017): https://arxiv.org/abs/1707.06887 Rainbow: https://arxiv.org/abs/1710.02298 Implicit Quantile Networks(ICML 2018): https://arxiv.org/abs/1806.06923 — 完 — 真挚招骋 量子位已经征募编写/新闻记者,工作中地址在中关村。希望有才华、有激情的同学们加入团队!有关关键点,请在量子位微信公众号(QbitAI)会话页面,回应“招骋”两字。 量子位 QbitAI · 今日头条号签订创作者 վ'ᴗ' ի 跟踪AI技术性和商品最新消息 推荐阅读:每日中国 (正文已结束) (编辑:喜羊羊) 免责声明及提醒:此文内容为本网所转载企业宣传资讯,该相关信息仅为宣传及传递更多信息之目的,不代表本网站观点,文章真实性请浏览者慎重核实!任何投资加盟均有风险,提醒广大民众投资需谨慎! |