当前的AI能否解决AGENT挑战
2022年1月26日整理发布:研究人员在两个基线 AI 模型上测试了 AGENT 挑战。第一个是贝叶斯逆向规划和核心知识(BIPaCK),是一种集成了物理模拟和规划的生成模型。
该模型使用数据集提供的完整真实信息,并将其输入物理和规划引擎,以预测智能体的轨迹。研究人员的实验表明,当 BIPaCK 拥有有关场景的完整信息时,它的性能能够与人类相当甚至更好。
然而,在现实世界中,人工智能系统无法获得精确标注的地面实况信息,必须执行复杂的任务,在不同的背景和光照条件下检测物体,人类和动物可以轻松解决这个问题,但对计算机来说仍然是一个挑战视觉系统。
在他们的论文中,研究人员承认 BIPaCK “需要准确重建 3D 状态和内置的物理动力学模型,这在现实世界的场景中不一定可用。”
研究人员测试的第二个模型,代号为 ToMnet-G,是DeepMind的科学家于 2018 年提出的心智神经网络理论 ( ToMnet ) 的扩展版本。 ToMnet-G 使用图神经网络对场景状态进行编码,包括物体、障碍物和代理的位置。然后,它将这些编码输入长短期记忆网络(LSTM),以跟踪代理在帧序列中的轨迹。该模型使用它从熟悉视频中提取的表示来预测代理在测试视频中的行为,并按预期或令人惊讶的方式对它们进行评分。
ToMnet-G 的优势在于它不需要 BIPaCK 的预先设计的物理和常识知识。它从视频和之前对其他数据集的训练中学习一切。另一方面,ToMnet-G 经常学习错误的表示,并且无法将其行为推广到新场景或熟悉信息有限时。
研究人员在他们的论文中观察到:“在没有许多内置先验的情况下,ToMnet-G 在类似场景下训练和测试时显示出有希望的结果,但它仍然缺乏在场景内和跨场景的强大泛化能力。”
两种模型之间的对比突出了人类在没有任何指令的情况下学习的最简单任务的挑战。
“我们必须记住,我们的基准在设计上描述了非常简单的综合场景,每次都解决常识的一个特定方面,”Gutfreund 说。“在现实世界中,人类能够非常快速地解析复杂的场景,其中与物理、心理学、语言等相关的常识的许多方面同时在发挥作用。人工智能模型还远远不能做任何接近这一点的事情。”