有望在AI和人类之间实现更好的合作
2022年1月11日整理发布:从围棋到星际争霸再到 Dota,人工智能研究人员正在创建可以在复杂游戏中击败人类专家的强化学习系统。但人工智能的更大挑战是创建可以与人类合作而不是与人类竞争的强化学习系统。
在一篇新论文中,DeepMind 的人工智能研究人员提出了一种新技术,可以提高强化学习代理与不同技能水平的人类合作的能力。该技术在年度 NeurIPS 会议上被接受,称为 Fictitious Co-Play (FCP),它不需要人工生成的数据来训练 RL 代理。
在使用解谜游戏 Overcooked 进行测试时,FCP 创建了 RL 代理,该代理在与人类合作时提供了更好的结果并减少了混乱。这些发现可以为人类人工智能系统的未来研究提供重要的方向。
训练强化学习代理
强化学习可以不知疲倦地学习任何具有明确定义的奖励、动作和状态的任务。给定足够的计算能力和时间,RL 代理可以在其环境中玩耍并学习一系列动作或“策略”,从而最大化其奖励。强化学习已被证明在玩游戏时非常有效。
但通常,RL 智能体学习与人类游戏不兼容的策略。当与人类合作时,他们会执行让他们的合作者感到困惑的行为,从而难以在需要共同计划和参与者之间分工的应用程序中使用它们。弥合 AI 与人类游戏玩法之间的差距已成为 AI 社区面临的重要挑战。
研究人员正在寻找创建多功能强化学习代理的方法,这些代理可以适应各种合作伙伴的习惯,包括其他 RL 代理和人类。
为游戏训练 RL 的经典方法是自我对战 (SP),其中代理不断与自己的副本进行对抗。 SP 可以非常有效地快速学习最大化游戏奖励的策略,但由此产生的 RL 模型过拟合了它自己的游戏玩法。与以不同方式训练的球员合作是很糟糕的。
另一种训练方法是人口游戏 (PP),它与具有不同参数和架构的各种合作伙伴一起训练 RL 代理。在竞技游戏中与人类合作方面,PP 代理比自我游戏要好得多。但他们仍然缺乏共同回报设置所需的多样性,在这种情况下,玩家必须一起解决问题,并根据环境的变化协调他们的战术。
另一种方法是行为克隆游戏 (BCP),它使用人类生成的数据来训练 RL 代理。BCP 模型不是从随机探索环境开始,而是根据从人类游戏中收集的数据调整参数。这些代理发展出更接近人类游戏模式的行为。如果数据是从具有不同技能水平和游戏风格的不同用户中收集的,那么代理可以更加灵活地适应队友的行为。因此,它们更有可能与人类玩家兼容。然而,生成人类数据具有挑战性,特别是因为强化学习模型通常需要不人道的游戏玩法才能达到最佳设置。
虚构合作
DeepMind 的新强化学习技术虚构共同游戏 (FCP) 背后的主要思想是创建可以帮助具有不同风格和技能水平的玩家的代理,而无需依赖人工生成的数据。
FCP 培训分两个阶段进行。首先,DeepMind 的研究人员创建了一组自玩 RL 代理。这些代理是独立训练的,并且具有不同的初始条件。因此,它们集中在不同的参数设置上,并创建了一个多样化的 RL 代理池。为了使代理池的技能水平多样化,研究人员在训练过程的不同阶段保存了每个代理的快照。
“最后一个检查点代表一个训练有素的‘熟练’合作伙伴,而早期的检查点代表不太熟练的合作伙伴。值得注意的是,通过每个合作伙伴使用多个检查点,这种额外的技能多样性不会产生额外的培训成本,”研究人员在论文中指出。
在第二阶段,以池中的所有代理作为其伙伴来训练一个新的 RL 模型。这样,新代理必须调整其策略,以便能够与具有不同参数值和技能水平的合作伙伴合作。DeepMind 研究人员写道:“FCP 代理已准备好跟随人类合作伙伴的领导,并学习一系列策略和技能的一般政策。”
测试 FCP
DeepMind 的 AI 研究人员将 FCP 应用于 Overcooked,这是一款解谜游戏,玩家必须在网格世界中移动,与物体互动,并执行一系列步骤来烹饪和送餐。Overcooked 很有趣,因为它的动态非常简单,但同时需要队友之间的协调和分工。
为了测试 FCP,DeepMind 简化了 Overcooked 以包含完整游戏中执行的任务的子集。人工智能研究人员还包括一系列精心挑选的地图,这些地图提出了各种挑战,例如强制协调和狭窄的空间。
研究人员训练了一组 SP、PP、BCP 和 FCP 代理。为了比较他们的表现,他们首先针对三个队友群体测试了每种 RL 代理类型,包括一个基于人类游戏数据训练的 BC 模型、一组经过不同技能水平训练的自我游戏代理,以及代表低技能的随机初始化代理。玩家。他们根据在相同数量的剧集中提供的餐食数量来衡量表现。
他们的研究结果表明,FCP 明显优于所有其他类型的 RL 代理,这表明它可以很好地概括各种技能水平和游戏风格。此外,他们令人惊讶的发现之一是其他训练方法非常脆弱。研究人员写道:“这表明它们可能无法与技术不高的人一起表现良好。”
然后,他们测试了每种类型的 RL 代理在与人类玩家合作时的表现。研究人员对 114 名人类玩家进行了一项在线研究,每人玩 20 场比赛。在每一集中,玩家被放置在一个随机的厨房中,并与其中一个 RL 特工合作,但不知道它是哪种类型。
根据 DeepMind 的实验结果,人类-FCP 双人组的表现优于所有其他类型的 RL 代理。
每两集之后,参与者以 1-5 的等级对他们与 RL 代理的体验进行评分。与其他智能体相比,参与者表现出对 FCP 的明显偏好,他们的反馈表明 FCP 的行为更加连贯、可预测和适应性强。例如,RL 代理似乎知道其队友的行为,并通过在每个烹饪环境中选择特定角色来防止混淆。
另一方面,调查参与者将其他强化学习代理的行为描述为“混乱”且难以适应。