AlphaStar是如何掌握游戏的
2022年1月28日整理发布:DeepMind 能够成功打破无约束规则,很大程度上得益于其母公司庞大的计算资源。目前,成功的人工智能模型是那些 可以随着数据和计算的可用性而扩展的模型。因此,如果您可以在问题上投入更多的匹配和更强大的处理器,您可能会看到新的更好的结果。
DeepMind 还 为每种不同的种族类型创建了一个神经网络。实际上,这意味着它正在为每场比赛训练一个单独的 AI 模型。同样,谷歌庞大的 TensorFlow 处理器库使这成为可能。
但驱动 AlphaStar 新版本的 AI 算法也有一些有趣的创新。AlphaStar 使用自我对弈,这是一种强化学习技术,其中 AI 代理自己多次扮演代理。自我 对弈是 DeepMind 的巨大围棋 AI AlphaZero使用的技术。自我游戏使 AI 代理能够快速学习,而无需人工输入,这可能是昂贵的(您将从哪里获取数亿玩过的游戏的数据?)。
然而,自我游戏也有其缺点。建立在自我游戏基础上的人工智能模型往往会发展出不合逻辑的行为。它们也变得非常脆弱,在特定条件下表现最佳,并随着环境的最轻微变化而破裂。DeepMind 使用多个 AI 代理,其目标不仅是为了获胜,而且通过发现对手的缺陷来变得更强大。这种技术使人工智能能够开发出更普遍的行为。
AlphaStar 还使用模仿学习,观察人类回放来发展探索星际争霸复杂环境的行为。
关于 AlphaStar 的一些注意事项和注意事项
在介绍 AlphaStar 新版本的博客文章中,DeepMind 的人工智能研究人员表示,“最终,这些结果提供了强有力的证据,证明通用学习技术可以扩展人工智能系统,使其在涉及多个参与者的复杂、动态环境中工作。”
虽然新版本的 AlphaStar 非常出色,但我不会将其称为通用人工智能的突破。它更类似于我们近年来看到的渐进式进步。
一方面,与 AlphaZero 在人类零输入的情况下掌握围棋不同,AlphaStar 仍然严重依赖人类数据。人工智能研究人员在论文的几个部分中明确表示,AlphaStar 需要来自人类游戏的数据。这很重要,因为它表明当前的人工智能技术仍然缺乏探索开放环境的能力。
此外,人工智能研究人员没有明确说明游戏接收信息的格式。根据博文和随附的论文,人工智能使用“类似相机的界面”来分析游戏地图。但这并不意味着 AlphaStar 可以看到与人类相同的复杂图形。处理这种数据需要在 计算机视觉方面付出额外的努力。
相反,AlphaStar 获取原始游戏数据,但仅限于通过摄像头查看时所看到的数量。 我不会完全称之为作弊。就像我们不能指望人类通过盯着原始游戏数据表来玩星际争霸一样,我们也不应该指望人工智能一定会通过盯着为人类视觉系统量身定制的图形来掌握游戏。
然而,它确实突出了 当代人工智能和人类智能之间的明显差异。如果 AlphaStar 一直在通过处理其游戏内的图形来学习玩星际争霸,它就必须解决各种新的挑战。例如,单位颜色或形状的最轻微变化都会使 AI 无法检测到它们。AlphaStar 将不得不针对图形的不同变化进行额外的训练周期。
此外,AlphaStar 可能能够击败世界上少数几位最好的玩家,但它仍然缺乏星际争霸新手玩家所拥有的许多技能。例如,任何玩过星际争霸 II 到中等水平的人都可以跳入类似的游戏,例如魔兽争霸或命令与征服,并很快适应游戏环境。但对于 DeepMind 的超强 AI 来说,每一个新游戏都是一个新的挑战,需要数百万次训练匹配。
AI 研究员和认知科学家 Gary Marcus 发布了一组用于评估 AI 行为的测试。这些将是对 AlphaStar 和类似 AI 模型的未来迭代进行评分的有用基准。
总之,我想说 AlphaStar 是人工智能领域的杰出成就,尤其是强化学习。游戏人工智能研究的结果肯定会在机器人和资源管理等领域有所帮助。总部位于旧金山的 OpenAI 使用类似的 AI 技术来开发 尖端的机器人手。DeepMind 的 AlphaStar 也将很快找到其真实世界的用例。
但是,虽然 AlphaStar 向我们展示了我们仍然可以突破人工智能的极限,但它也提醒我们要复制人类大脑这一自然界最复杂的产品必须克服的挑战。