如何在物理层面上运作的理解是我们视觉系统的关键组成部分之一
从婴儿时期起,我们就开始探索世界,其中大部分是通过观察来探索的。我们了解重力、对象持久性、维度等事物,然后我们使用这些概念来推理视觉场景。
“感知、预测并因此与物理世界中的物体进行适当交互的能力依赖于对环境的快速物理推断,”《黑暗,超越深度》的作者写道。
快速浏览一个场景,我们可以快速了解哪些物体支撑或悬挂在其他物体上。我们可以相当准确地判断一个物体是否能够承受另一个物体的重量,或者一堆物体是否可能倾倒。我们不仅可以推理刚性物体,还可以推理液体和沙子的特性。例如,如果您看到一个倒置的番茄酱瓶,您可能会知道它的位置可以利用重力来轻松分配。
虽然物理关系在大多数情况下在图像中可见,但在没有直观物理模型的情况下理解它们几乎是不可能的。例如,无论您是否了解打台球,您都可以根据您对物理世界的一般知识快速推断出哪个球导致其他球在接下来的场景中移动。您还可以从不同的角度理解同一场景或任何其他台球桌场景。
当前的人工智能系统需要改变什么?“为了构建类似人类的常识知识,一个直观物理学的计算模型可以支持任何涉及物理学的任务的表现,而不仅仅是一项狭窄的任务,必须在代理的环境理解中明确表示,”作者写道。
这与 AI 中当前的端到端范式背道而驰,其中神经网络被赋予视频序列或图像及其相应的描述,并期望将这些物理属性嵌入到它们的权重中。
最近的工作表明,与纯基于神经网络的系统相比,包含物理引擎的人工智能系统在推理对象之间的关系方面要好得多。
因果关系
因果关系是当今人工智能算法的最终缺失部分,也是所有 FPICU 组件的基础。是公鸡啼叫使太阳升起还是日出使公鸡啼叫?温度升高会增加温度计中的汞含量吗?拨动开关是开灯还是反之?
我们可以看到同时发生的事情,并假设一个原因是另一个原因还是它们之间没有因果关系。另一方面,机器学习算法可以跟踪不同变量之间的相关性,但无法推断因果关系。这是因为因果事件并不总是可见的,它们需要对世界的了解。
因果关系使我们不仅能够推理场景中发生的事情,还能推理反事实,即尚未发生的“假设”情景。“观察者利用他们的反事实推理能力来解释视觉事件。换句话说,解释不仅基于观察到的内容,还基于会发生但没有发生的事情,”人工智能研究人员写道。
为什么这很重要?到目前为止,人工智能系统的成功很大程度上依赖于提供越来越多的数据来弥补因果推理的不足。在强化学习中尤其如此,在强化学习中,AI 代理被释放以通过反复试验来探索环境。谷歌等科技巨头利用其纯粹的计算能力和无限的财务资源,通过数百万个场景来暴力破解他们的人工智能系统,以期捕捉到所有可能的组合。这种方法在棋盘和视频游戏等领域取得了很大的成功。
然而,正如“Dark, Beyond Deep”的作者所指出的,强化学习程序没有捕捉因果关系,这限制了它们将功能转移到其他问题的能力。例如,一个可以在冠军级别玩星际争霸 2的AI如果给它魔兽争霸 3 或更早版本的星际争霸,它会傻眼。它甚至无法将其技能推广到它所训练的地图和种族之外,除非它在新设置中经历了数千年的额外游戏。
“解决这一挑战的一种方法是学习环境的因果编码,因为因果知识固有地编码了世界的可转移表示,”作者写道。“假设世界的动态是恒定的,无论观察到环境如何变化,因果关系都将保持真实。”
功能
如果您想坐下而找不到椅子,您会寻找一个可以支撑您体重的平坦而坚固的表面。如果您想在墙上钉钉子而找不到锤子,您将寻找具有可抓握部分的坚固而重的物体。如果你想运水,你会寻找一个容器。如果您想爬墙,您会寻找可以充当把手的物体或突出物。
我们的视觉系统主要是任务驱动的。我们根据它们可以执行的功能来反思我们的环境和我们看到的物体。我们可以根据对象的功能对对象进行分类。
同样,今天的人工智能缺少这一点。深度学习算法可以在同一对象的图像中找到空间一致性。但是,当他们必须处理种类繁多的对象时会发生什么?
既然我们从功能的角度来看对象,我们马上就会知道上面的对象都是椅子,尽管很奇怪。但是对于已经在传统椅子图像上训练的深度神经网络,它们会混淆大量像素,这些像素最终可能会被归类为其他东西。
“对于现代计算机视觉和人工智能系统来说,在如此大的类内差异中进行推理是极难捕捉和描述的。如果没有一致的视觉模式,为给定任务正确识别工具是一个长尾视觉识别问题,”作者指出。
意图
麻省理工学院和加州大学洛杉矶分校的人工智能研究人员写道:“对意图的感知和理解使人类能够更好地理解和预测其他智能体的行为,并与他人一起参与具有共同目标的合作活动。”
推断意图和目标在我们理解视觉场景中起着非常重要的作用。意图预测使我们能够概括我们对场景的理解,并能够在不需要先前示例的情况下对新情况进行推理。
我们倾向于将有生命的物体拟人化,即使它们不是人类——我们下意识地同情它们以了解它们的目标。这使我们能够推理他们的行动方针。我们甚至不需要丰富的视觉线索来推理意图。有时,一个眼神、一个身体姿势或一个运动轨迹就足以让我们推断出目标和意图。
以下面的视频为例,这是一个古老的心理学实验。你能说出发生了什么吗?实验中的大多数参与者很快就在简单的几何形状之间建立了社会关系,并赋予它们诸如欺凌者、受害者等角色。
这是无法从像素模式中完全提取的东西,需要有关社会关系和意图的补充知识。
公用事业
最后,作者讨论了理性代理人做出最大化其预期效用的决策的趋势。
“给定模型中的每一个可能的动作或状态都可以用一个单一的、统一的值来描述。这个值,通常被称为效用,描述了该动作在给定上下文中的有用性,”人工智能研究人员写道。
例如,在寻找坐的地方时,我们试图找到最舒适的椅子。许多 AI 系统都包含实用功能,例如在游戏中获得更多分数或优化资源使用。但是如果不结合 FPICU 的其他组件,效用函数的使用仍然非常有限。
“这些认知能力已显示出潜力,进而成为认知 AI 的基石,因此应该成为构建这种认知架构的未来努力的基础,”《Dark, Beyond Deep》一书的作者写道。
当然,这说起来容易做起来难。为编纂论文中提到的一些组件付出了很多努力,作者提到了该领域正在进行的一些有希望的工作。但到目前为止,进展一直是渐进式的,社区在哪种方法最有效的问题上存在很大分歧。
“Dark, Beyond Deep”一书的作者认为,结合神经网络和经典智能算法的混合 AI 系统最有可能实现支持 FPICU 的 AI 系统。
“实验表明,当前基于神经网络的模型在学习后无法获得数学推理能力,而配备额外感知模块的基于搜索的经典算法以更少的搜索步骤实现了显着的性能提升。”