如何教人工智能推理视频
你可能认为这些问题非常愚蠢。但有趣的是,当今最先进的人工智能系统将难以回答这些问题。诸如上面提出的问题需要能够推理对象及其行为和关系随着时间的推移。这是人类智能的一个组成部分,但几十年来,人工智能科学家仍然难以捉摸。
IBM、麻省理工学院、哈佛和 DeepMind 的研究人员在 ICLR 上发表的一项新研究强调了当前人工智能系统在处理视频因果关系方面的缺点。在他们的论文中,研究人员介绍了 CLEVRER,一个新的数据集和基准,用于评估 AI 算法在推理视频序列方面的能力,以及神经符号动态推理 (NS-DR),一个混合 AI 系统,标志着因果关系的重大改进在受控环境中进行推理。
为什么人工智能不能对视频进行推理
对于我们人类来说,检测和推理场景中的物体几乎是齐头并进的。但是对于当前的人工智能技术,它们是两个根本不同的学科。
在过去的几年里,深度学习给人工智能领域带来了巨大的进步。深度神经网络是深度学习算法的主要组成部分,可以在大量数据中找到复杂的模式。这使他们能够执行以前计?算机软件禁止或非常困难的任务,例如检测图像中的对象或识别语音。
单靠模式识别可以实现的效果令人惊讶。神经网络在我们每天使用的许多应用程序中都发挥着重要作用,从在 Google 图片中查找对象和场景到检测和阻止社交媒体上的不当内容。神经网络在生成关于视频和图像的描述方面也取得了一些进展。
但是,您可以将模式识别推到什么程度也有非常明显的限制。虽然是人类视觉的重要组成部分,但模式识别只是其众多组成部分之一。当我们的大脑解析本文开头的棒球视频时,我们对运动、物体持久性、实体性和运动的了解开始发挥作用。基于这些知识,我们可以预测接下来会发生什么(球会去哪里)和反事实情况(如果球棒没有击中球会怎样)。这就是为什么即使是从未看过棒球比赛的人也会对这段视频有很多话要说。
然而,深度学习算法会检测场景中的对象,因为它们在统计上与它在训练期间看到的数千个其他对象相似。它对材料、重力、运动和冲击一无所知,其中一些概念使我们能够对场景进行推理。
视觉推理是人工智能研究的一个活跃领域。研究人员开发了几个数据集来评估人工智能系统对视频片段进行推理的能力。仅靠深度学习能否解决问题是一个悬而未决的问题。
一些人工智能科学家认为,如果有足够的数据和计算能力,深度学习模型最终将能够克服其中的一些挑战。但到目前为止,在需要常识和推理的领域取得的进展很小而且是渐进的。
CLEVRER 数据集
在 ICLR 上引入的新数据集被命名为“用于视频表示和推理的碰撞事件”或 CLEVRER。它的灵感来自CLEVR,在2017年CLEVR在斯坦福大学开发出一种视觉答疑数据集是一组的问题,固体物体的存在静止图像。AI 代理必须能够解析场景并回答有关对象数量、属性和空间关系的多项选择题。
CLEVRER 由固体物体相互移动和碰撞的视频组成。将测试 AI 代理回答有关场景的描述性、解释性、预测性和反事实问题的能力。例如,在下面的场景中,人工智能将被问到如下问题:
描述:最后一个物体与圆柱体碰撞的材料是什么?
解说:橡胶缸与红色橡胶球的碰撞是否会导致橡胶与金属缸的碰撞?
预测:金属球体和灰色圆柱体会碰撞吗?
反事实:如果我们从场景中移除青色圆柱体,红色橡胶球和灰色圆柱体会碰撞吗?
就像本文开头就视频提出的问题一样,这些问题对您来说可能听起来微不足道。但它们是使用当前混合的 AI 完成的复杂任务,因为它们需要对场景的因果理解。
正如论文作者总结的那样,解决 CLEVRER 问题需要三个关键要素:“识别视频中的对象和事件;建模对象和事件之间的动态和因果关系;以及对问题背后的符号逻辑的理解。”
“CLEVRER 是第一个视觉推理数据集,专为视频中的随意推理而设计。以前的视觉推理数据集主要关注事实问题,例如什么、何时、何地和是/是。但最基本的推理能力是理解'为什么'”麻省理工学院-IBM沃森人工智能实验室的研究科学家、CLEVRER论文的合著者Chuang Gan告诉TechTalks。
受控环境
根据论文作者的说法,CLEVRER 是“一个完全受控的合成环境”。对象的种类和材料很少,所有问题都设置在一个平面上,并且问题中使用的词汇有限。这一点细节非常重要,因为当前的人工智能系统在处理可能发生的事件组合是无限的开放环境方面非常糟糕。
受控环境使 CLEVRER 的开发人员能够提供带有丰富注释的示例来评估 AI 模型的性能。它允许人工智能研究人员将他们的模型开发集中在复杂的推理任务上,同时消除其他障碍,如图像识别和语言理解。
但这也意味着,如果一个 AI 模型在 CLEVRER 上的得分很高,这并不一定意味着它能够处理现实世界中任何事情都可能发生的混乱局面。但是,该模型可能适用于其他有限的环境。
“在视频中使用时间推理和因果推理可以在机器人和自动驾驶应用中发挥重要作用,”甘说。“例如,如果发生交通事故,可以使用 CLEVRER 模型来分析监控视频并找出导致事故的原因。在机器人应用中,如果机器人可以遵循自然语言命令并采取相应的行动,这也很有用。”
神经符号动态推理 AI 模型
该论文的作者在基本深度学习模型上测试了 CLEVRER,例如卷积神经网络 (CNN)结合多层感知器 (MLP) 和长短期记忆网络 (LSTM)。他们还在高级深度学习模型 TVQA、IEP、TbDNet 和 MAC 的变体上对它们进行了测试,每个模型都经过修改以更好地适应视觉推理。
基本的深度学习在描述性挑战中表现一般,而在其他方面表现不佳。一些高级模型在描述性挑战中表现不错。但在其他挑战中,准确率大幅下降。基于纯神经网络的 AI 模型缺乏对对象及其行为之间的因果关系和时间关系的理解。他们还缺乏一个世界模型,可以让他们预见接下来会发生什么,并弄清楚替代的反事实场景是如何运作的。
作为解决方案,研究人员引入了神经符号动态推理模型,这是神经网络和符号人工智能的结合。随着深度学习的兴起,符号人工智能,也称为基于规则的人工智能,已经被淘汰了。与神经网络不同,符号 AI 系统在处理视觉数据和书面文本等非结构化信息方面非常糟糕。但另一方面,基于规则的系统非常擅长符号推理和知识表示,这一领域一直是机器学习算法的痛点。
NS-DR 充分利用了神经网络和符号推理系统:
卷积神经网络从图像中提取对象。
LSTM 处理问题并将它们转换为程序命令。
传播网络从 CNN 提取的对象数据中学习物理动力学,并预测未来的对象行为。
最后,一个 Python 程序将从神经网络获得的所有结构化信息汇集在一起?以编译问题的答案。
NS-DR 在解释性、预测性和反事实挑战方面的性能明显高于纯深度学习模型。然而,反事实基准仍然保持在 42% 的适度准确率,这说明了开发能够像我们一样理解世界的人工智能所面临的挑战。但与性能最佳的基线深度学习模型 25% 的准确率相比,它仍然是一个显着的进步。
NS-DR 的另一个显着优势是它在训练阶段需要的数据要少得多。
结果表明,将神经网络和符号程序结合在同一个 AI 模型中,可以结合它们的优点并克服它们的缺点。“符号表示为视觉、语言、动态和因果关系提供了强大的共同基础,”作者指出,并补充说符号程序使模型能够“明确捕捉视频因果结构和问题逻辑背后的组合性”。
NS-DR 的好处确实伴随着一些注意事项。用于训练模型的数据需要额外的注释,这在实际应用中可能过于耗能和昂贵。