2月17日人工智能如何发现捉迷藏的规则
OpenAI 研究人员在虚拟捉迷藏游戏环境中展示了他们的想法,并以博客文章和随附视频的形式发布。在设置中,人工智能代理分为“隐藏者”和“寻求者”。寻找者必须发现隐藏者,而隐藏者必须避免被发现。隐藏者有一个有限的领先时间来隐藏。在这段时间里,求知者被冻结了,什么也做不了。每个 AI 代理都独自探索利用环境和周围物体实现目标的方法。
该系统使用强化学习,这是一种在研究项目中特别流行的人工智能技术。人工智能研究人员此前曾使用强化学习来创建可以玩围棋、星际争霸和Dota 2等复杂游戏的机器人。
在强化学习中,每个 AI 代理都被赋予了目标、激励和环境的基本规则。然后,人工智能必须找到优化其行为的方法,以实现目标并最大化回报。
由于躲藏者和寻求者的目标直接冲突,因此捉迷藏的设置为强化学习提供了完美的环境。强化学习的挑战之一是为 AI 代理提供正确的目标和奖励。当人工智能代理试图在短期和长期目标之间取得平衡时,他们经常会出现奇怪的行为。这就是为什么 AI 工程师必须经常提供明确的目标并随着代理的进展对其进行调整。
OpenAI 新的捉迷藏系统的有趣转折之一是研究人员没有为 AI 代理提供在其环境中使用对象的特定奖励。相反,代理商只根据他们的团队目标获得奖励。藏匿者如果被隐藏,就会得到奖励,如果被发现,就会受到惩罚。寻求者以相反的方式获得奖励和惩罚。
躲藏者和寻求者必须自己发现如何使用散布在游戏环境中的盒子、坡道和墙壁来实现他们的目标。
玩捉迷藏数百万次
在训练的第一阶段,研究人员在一个简单的环境中释放了一个由两个隐藏者和两个搜索者组成的团队。起初,人工智能代理没有表现出任何形式的智能行为,而捉迷藏的竞争是隐藏者和寻找者之间的随机追逐。但在数百万场比赛的过程中,两个 AI 团队都开发了有趣的个人和团队战术。
首先,隐藏者学会了移动箱子来挡住门,并将自己封闭在房间里,以防止寻找者找到它们。每个团队都可以移动物体并锁定它们以防止其他团队操纵它们(研究人员可能添加了最后一个细节以简化 AI 代理的环境,否则游戏可能会变成隐藏者和寻求者操纵的无休止的竞争对象。)
但随后,搜索者学会了移动靠近墙壁的坡道并爬过发现隐藏者。作为回应,躲藏者学会了移动藏身处内的坡道,以防止寻找者使用它们。整个过程平移了超过 5000 万个捉迷藏剧集。
之后,人工智能研究人员在更开放的环境中尝试了他们的模型,并增加了对象的数量和种类以增加复杂性。人工智能代理的数量也有所增加,进一步为合作和团队合作开辟了道路。同样,该过程从 AI 代理的随机移动开始。但人工智能逐渐开始表现出有趣的行为模式。
与简单的设置相反,开放的环境没有任何封闭的房间。但是隐藏者学会了通过在他们周围放置墙壁物体并锁定它们来创建自己的藏身之处。再一次,搜寻者 AI 学会了使用坡道跳过墙壁并发现隐藏者。
几亿次比赛后,藏身者终于知道他们可以在撤退到藏身之处之前锁定坡道。这阻止了搜寻者移动藏身处旁边的坡道。
快进一亿场比赛后,人工智能开发了一种新策略:搜索者将一个未锁定的盒子移动到锁定的坡道旁边,使用坡道爬上盒子,然后滑到有围墙的藏身处旁边,并发现了藏身者。
最终,在 4.8 亿集之后,隐藏者们了解到,如果他们在建造藏身处之前锁定所有物体,搜索者将无法发现它们。有趣的是,他们以团队合作的方式做到了这一点,确保他们在搜索者被激活之前锁定了所有东西。
有趣的是,在数以百万计的捉迷藏情节中,人工智能找到了一些有趣的方法来利用游戏系统来实现其目标。例如,在一种情况下,隐藏者学会了将坡道扔到游戏环境之外,以防止寻找者使用它们。在另一个例子中,搜寻者设法在系统中找到了一个小故障,飞越了比赛场地并从上方找到了隐藏者。