单挑碾压顶尖职业选手,腾讯公开王者荣耀AI最新细节

作者: 乾明 2019-12-24 16:46:10

单挑碾压顶尖职业选手,腾讯公开王者荣耀AI最新细节

本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。

最新消息,腾讯又围绕王者荣耀AI“绝悟”发表了新论文,已经被AI顶会AAAI 2020收录。

这是继今年8月份绝悟在5v5比赛中击败职业战队后,腾讯首次披露AI背后的技术细节。

腾讯研究人员表示,将AI执行动作时间限制在业余高手玩家相同的水平上(间隔为133ms),绝悟已经能够单挑顶级职业选手,并在其擅长的英雄上实现碾压,15场比赛中职业选手只赢了1场,并且最多坚持不到8分钟。

单挑碾压顶尖职业选手,腾讯公开王者荣耀AI最新细节

在今年8月份的公开测试中,这一王者荣耀1V1的AI与大量顶级业余玩家进行了2100场对战。AI胜率达到99.81%。

在貂蝉(法师)、狄仁杰(射手)、花木兰(上单/战士)、露娜(打野/刺客)、鲁班(射手)等英雄上,胜率都是100%。

单挑碾压顶尖职业选手,腾讯公开王者荣耀AI最新细节

如此AI是怎么训练出来的?我们且看腾讯最新论文中披露的最新细节。

30小时达到王者水平,70小时比肩职业玩家

首先需要指明的是,腾讯的这篇新论文关注的是 1v1 游戏AI,并不是 5v5 游戏AI。

研究人员在论文中解释称,后者更注重所有智能体的团队合作策略,而不是单个智能体的动作决策。

单挑碾压顶尖职业选手,腾讯公开王者荣耀AI最新细节

考虑到这一点,1v1游戏更适合用来研究游戏中的复杂动作决策问题,也能够更加全面系统的研究游戏 AI 智能体的构建。

AI的整体架构一共分为4个模块:强化学习学习器(RL Learner)、人工智能服务器(AI Server)、分发模块(Dispatch Module)和记忆池(Memory Pool)。

单挑碾压顶尖职业选手,腾讯公开王者荣耀AI最新细节

这是一种高可扩展低耦合的系统架构,可以用来构建数据并行化。主要考虑的是复杂智能体的动作决策问题可能引入高方差的随机梯度,所以有必要采用较大的批大小以加快训练速度。

其中,AI服务器实现的是 AI 模型与环境的交互方式。分发模块是用于样本收集、压缩和传输的工作站。记忆池是数据存储模块,能为 RL 学习器提供训练实例。

这些模块是分离的,可灵活配置,从而让研究者可将重心放在算法设计和环境逻辑上。这样的系统设计也可用于其它的多智能体竞争问题。

在强化学习学习器中,他们还实现了一个 actor-critic 神经网络,用于建模1v1 游戏中的动作依赖关系。

单挑碾压顶尖职业选手,腾讯公开王者荣耀AI最新细节

为了应对游戏中的多个场景决策,研究人员们还提出了一系列算法策略,来实现更高效率的训练:

  • 为了帮助AI在战斗中选择目标,引入目标注意力机制;
  • 为了学习英雄的技能释放组合,以便AI在序列决策中,快速输出大量伤害,使用了LSTM;
  • 用于构建多标签近端策略优化(PPO)目标,采用动作依赖关系的解耦;
  • 为了引导强化学习过程中的探索,开发了基于游戏知识的剪枝方法;
  • 为了确保使用大和有偏差的数据批进行训练时的收敛性,改进 PPO 算法提出dual-clip PPO,其示意图如下所示:
单挑碾压顶尖职业选手,腾讯公开王者荣耀AI最新细节

研究人员在论文中指出,基于这样的方法训练一个英雄,使用48个P40 GPU卡和18000个CPU 内核,训练一天相当于人类打500年,训练30个小时就能达到王者段位水平,70个小时比肩职业玩家,其表现要显著优于多种baseline方法。

单挑碾压顶尖职业选手,腾讯公开王者荣耀AI最新细节

而且如前所述,在与人类选手交战的测试中,获得了非常亮眼的成绩。

如果你想了解关于这一AI更多的细节,我们将论文链接放到了文末~

来自腾讯AI Lab和天美工作室,还在打造开放平台

单挑碾压顶尖职业选手,腾讯公开王者荣耀AI最新细节

与2018年12月份发布的王者荣耀AI论文作者单位相比,这次多了“天美工作室”——王者荣耀的开发团队。

单挑碾压顶尖职业选手,腾讯公开王者荣耀AI最新细节

除了研究,腾讯AI Lab与王者荣耀还将联合推出“开悟”AI+游戏开放平台。

王者荣耀会开放游戏数据、游戏核心集群(Game Core)和工具,腾讯AI Lab会开放强化学习、模仿学习的计算平台和算力,邀请高校与研究机构共同推进相关AI研究,并通过平台定期测评,来展示多智能体决策研究实力。

目前“开悟”平台已启动高校内测,预计在2020年5月全面开放高校测试,并且在测试环境上,支持1v1,5v5等多种模式。

腾讯透露,计划在2020年12月举办首届AI在王者荣耀应用的水平测试。

AI 数据 人工智能
上一篇:李德毅院士:人工智能冲击最大的行业是教育 下一篇:推动万物智联进程 中科创达发布边缘智能平台TurboX
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

谷歌发布TyDi QA语料库,涵盖11种不同类型语言

为了鼓励对多语言问答技术的研究,谷歌发布了 TyDi QA,这是一个涵盖了 11 种不同类型语言的问答语料库。

Jonathan Clark ·  22h前
过度防范?莫斯科公交司机接令人工识别中国乘客,人脸识别系统也被授权启用

据外媒报道,莫斯科公共交通运营商上周指示,如果中国公民上了他们的公共汽车,司机应迅速将相关信息告知调度员,由调度员负责报警。

张佳 ·  23h前
MacBook显卡不跑AI模型太浪费:这个深度学习工具支持所有品牌GPU

通过这款名为 PlaidML 的工具,不论英伟达、AMD 还是英特尔显卡都可以轻松搞定深度学习训练了。

Synced ·  23h前
机器学习所需的工程量未来会大大减少 精选

未来,构建 ML 产品将更加有趣,并且这些系统会工作得更好。随着 ML 自动化工具的不断改进,数据科学家和 ML 工程师将把更多的时间花在构建优秀的模型上,而花在与生产级 ML 系统相关的繁琐但必要的任务上的时间会更少。

David LiCause ·  1天前
YOLO之父退出CV界表达抗议,拒绝AI算法用于军事和隐私窥探

YOLO算法作者Joseph Redmon在个人Twitter上宣布,将停止一切CV研究,原因是自己的开源算法已经用在军事和隐私问题上。这对他的道德造成了巨大的考验。

晓查 ·  1天前
绿色机器人如何帮助环境可持续发展

各种各样的机器人已经被开发出来,它们能够以各种方式帮助保护环境,从扑灭野火,帮助管理垃圾,到清洁海洋和其他水体等。以下是绿色机器人帮助环境可持续发展的几种方法。

iothome ·  1天前
疫情当前,才知道AI原来是这么好用 精选

近日,工信部表示,将部署运用新一代信息技术支撑服务疫情防控工作。并且工信部特别强调,要通过运用人工智能、大数据、云计算等服务疫情监测分析、人员流动和社区管理等,对疫情开展科学精准防控。

Witkey ·  1天前
什么是持续智能?对物联网有什么影响?

物联网世界将迎来充满希望的2020年。5G公司一再声称,2020年是5G在公共领域站稳脚跟,并普及的一年。

iothome ·  2天前
Copyright©2005-2020 51CTO.COM 版权所有 未经许可 请勿转载