近日,第二届腾讯开悟多智能体强化学习大赛(以下简称“开悟大赛”)决赛圆满落幕。本届大赛于2021年9月1日正式启动,来自全国顶尖高校的20多支团队参赛,经过半年多的比拼,共有四支队伍进入决赛。经过激烈角逐,由清华大学计算机系教授、瑞莱智慧首席科学家张钹院士创建的TSAIL课题组领衔团队(队员:陈华玉、严谕梓、沈晓腾、周浩天、黄彬,指导教师:阎栋、苏航、朱军),荣获本届大赛总冠军。
“开悟”大赛创新性地将人工智能科研与电子竞技结合,自创办以来就备受关注。本届赛事沿用此前面向高校的邀请赛制,并进一步扩大开放规模,20多所知名高校受邀参赛。参赛选手需要通过编写程序,利用人工智能技术,在游戏《王者荣耀》中进行对抗。参赛队伍需要在指定的时间内,在给定的资源下训练出最优模型,并最终部署好使用最优模型的AI服务器,提交系统完成1V1、3V3对局挑战。
游戏一直是人工智能最为理想的训练场之一。《王者荣耀》是一款需要玩家根据复杂多变的战场情况实时反应,制定策略的游戏,要求玩家掌握并融合实时感知、分析、理解、推理、决策等多种能力。因此,如何设计人工智能的行为权重、操作触发条件,以及决策是否正确的反馈机制就成为了比赛制胜的关键。而且,人工智能如果能够在如此复杂的游戏环境中,学会实时感知、分析、理解、推理、决策和行动,就可能在复杂多变的真实环境中发挥更大作用。
比赛过程中需要解决两个难点:首先,王者荣耀有着巨大的观察空间与动作空间,这让智能体随机探索难以得到正反馈。第二,3v3比赛时,团队之间对抗需要依靠零和博弈机制实现,但现实场景中,设置团队因子过高或者零和博弈,会让学习过程变得十分不稳定。为此,团队综合利用课程学习(curriculum learning)和强化学习等前沿技术,设计了一个高效稳定的学习算法,提高了智能体的团队合作能力。
针对该赛事的挑战所提出的解决方法,与瑞莱智慧深耕第三代人工智能技术的思路一致。团队在引导智能体高效学习、优化算法等方面,体现出了第三代人工智能的主要特征:利用知识、数据、算法和算力等核心要素,保证算法在对抗环境下的可靠运行,为应对复杂问题中的不确定性建模与推断提供可能,建模能力更加可靠鲁棒,以便建立新的可解释和鲁棒的理论与方法,从而发展出安全、可信、可靠和可扩展的人工智能技术。