主页 > 快资讯 > 正文

一个AI玩41个游戏,谷歌最新多游戏决策 Transformer 综合表现分是 DQN 的两倍

2022-07-23 20:23来源:未知编辑:时寒峰

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

99科技网近日消息。谷歌 AI 宣布,在多任务学习上取得了巨大进展:他们搞出一个会玩 41 款雅达利游戏的 AI,而且采用的新训练方法比起其他算法,训练效率大大提升!

此前会玩星际争霸的 CherryPi 和火出圈的 AlphaGo 都属于单游戏智能体(Agent),也就是说,一个 AI 只会玩一种游戏。多游戏智能体这边,现有的训练算法屈指可数:主要包括时间差分学习算法(Temporal Difference Learning,TD)和行为克隆(Behavioral Cloning,BC)等。

不过为了让一个智能体同时学会玩多款游戏,之前的这些方法的训练过程都很漫长。

现在,谷歌采用了一个新决策 Transformer 架构来训练智能体,能够在少量的新游戏数据上迅速进行微调,使训练速度变得更快,而且训练效果也是杠杠的 —— 该多游戏智能体玩 41 款游戏的表现综合得分,是 DQN 等其他多游戏智能体的 2 倍左右,甚至可以和只在单个游戏上训练的智能体媲美。

△ 100% 表示每款游戏的人类平均水平,灰色条代表单游戏智能体,蓝色条代表多游戏智能体

下面就来看看这个性能优秀的多游戏智能体。

新决策 Transformer 三大亮点

这个处理多款游戏学习的 Transformer,采用了一个将强化学习(Reinforcement Learning,RL)问题视为条件序列建模的架构,它根据智能体和环境之间过去的互动以及预期收益,来指导智能体的下一步活动。

说到强化学习,其讨论的主要问题是:在训练过程中,一个面对复杂环境的智能体,如何通过在每个 Time Step 里感知当前状态和 Reward 来指导下一步动作,以最终最大化累计收益(Return)。

传统的深度 RL 智能体(如 DQN、SimPLe、Dreamer 等)会学习一个策略梯度(Policy Gradient),让高 Reward 的轨迹出现概率变大,低 Reward 的轨迹出现概率变小。

这就导致它出现一些问题:即需要手动定义一个信息量很大的标量值范围,包含针对于每个特定游戏的适当信息。这是个相当浩大的工程,而且拓展性较差。

为了解决这个问题,谷歌团队提出了一个新方法。

训练纳入数据更多样化

谷歌的这个新决策 Transformer,把从入门玩家到高级玩家的经验数据都映射到相应的收益量级(Return Magnitude)中。开发者们认为,这样可以让 AI 模型更全面地“了解”游戏,从而让其更稳定并提高其玩游戏的水平。

他们根据智能体在训练期间与环境的互动,建立了一个收益的大小分布模型。在这个智能体玩游戏时,只需添加一个优化偏差来提升高 Reward 出现的概率。

此外,为了在训练期间更全面地捕捉智能体与环境互动的时空模式,开发者还将输入的全局图像改成了像素块,这样模型就可以关注局部动态,以掌握游戏相关的更多细节信息。

△ 决策 Transformer 基本架构示意图

可视化智能体训练过程

此外,开发者们还别出心裁地将智能体的行为可视化。然后他们发现,这个多游戏决策智能体一直都在关注着包含关键环境特征等重要信息的区域,而且它还可以“一心多用”:即同时关注多个重点。

△ 红色越亮表示智能体对那块像素的关注度越高

这种多样化注意力分配也提高了模型的性能。

拓展性更好

如今规模已成为许多机器学习相关突破的重要驱动力之一,而规模拓展一般是通过增加 Transformer 模型中的参数数量来实现的。研究者发现,这个多游戏决策 Transformer 也是类似的:随着规模扩大,和其他模型相比,其性能提升显著。

Facebook 也在研究决策 Transformer

谷歌 AI 使用决策 Transformer 不仅提高了 AI 玩多个游戏的水平,还提升了多游戏智能体的扩展性。

除此之外,据谷歌大脑、加州大学伯克利分校和 Facebook AI Research 合作的一篇论文介绍,决策 Transformer 架构在强化学习研究平台 OpenAI Gym 和 Key-to-Door 任务上也表现出色。

或许决策 Transformer 正是通用人工智能(AGI)发展的关键因素之一。

对了,谷歌 AI 表示,相关代码和 Checkpoint 会在 GitHub 上陆续开源,感兴趣的小伙伴们可以去看看~

99科技网:http://www.99it.com.cn

相关推荐
央视携腾讯打造首个数实融合虚拟音乐世界节目体验 央视携腾讯打造首个数实融合虚拟音乐世界节目体验

5月4日,中央广播电视总台推出《奋斗的青春——2022年五四青年节特别节目》,

快资讯2022-08-15

一加回应手机发热登上热搜:玩游戏温度升高属正常现象 一加回应手机发热登上热搜:玩游戏温度升高属正常现象

昨日,一加手机第一天用烫手登上微博热搜,对此,一加方面回应称,手机在玩

快资讯2022-08-15

国内首个乘用车无人化运营试点在京开放 国内首个乘用车无人化运营试点在京开放

4月28日,《北京市智能网联汽车政策先行区乘用车无人化道路测试与示范应用管

快资讯2022-08-15

三七互娱:旗下37网游事业群页游部原负责人邝某辉受贿罪成立,获刑九个月 三七互娱:旗下37网游事业群页游部原负责人邝某辉受贿罪成立,获刑九个月

昨日,三七互娱报前员工邝某辉收受贿赂违法犯罪事,旗下37网游事业群页游部

快资讯2022-08-15

杭州亚运会官宣延期,包含8个电竞正式项目 杭州亚运会官宣延期,包含8个电竞正式项目

据央视新闻报道,亚洲奥林匹克理事会总干事6日宣布,原定于2022年9月10日至

快资讯2022-08-13

自动驾驶商业化运营按下“快进键”,北京成为国内首个开启乘用车无人化运营试点的城市 自动驾驶商业化运营按下“快进键”,北京成为国内首个开启乘用车无人化运营试点的城市

自动驾驶商业化运营再度按下“快进键”。近日,北京市发放无人化载人示范应

快资讯2022-08-12

严格规范虚拟偶像代言:很多商家利用虚拟偶像对其产品进行代言 严格规范虚拟偶像代言:很多商家利用虚拟偶像对其产品进行代言

日前有一个现象引人注目:虚拟偶像开始越来越多地进入一些企业的视野,成为

快资讯2022-08-10

王一博、黄渤电影《热烈》杀青!电影成本多少?个人怎么认购投资! 王一博、黄渤电影《热烈》杀青!电影成本多少?个人怎么认购投资!

由大鹏导演电影《热烈》杀青,黄渤、王一博、岳云鹏、宋祖儿等主演,群星璀

快资讯2022-08-09

曝小米汽车整车焊装开始招标:工厂有100个足球场大 曝小米汽车整车焊装开始招标:工厂有100个足球场大

近日,据媒体报道,有招标代理公司受委托,发布了小米汽车科技有限公司整车

快资讯2022-08-09

不收费不充值的交友软件APP那个好用 不收费不充值的交友软件APP那个好用

社交软件已经充斥着我们的生活,每天忙碌的工作没有过多时间认识到其他的人

快资讯2022-08-08