如何教人工智能推理视频

小成熟
精选回答

你可能认为这些问题非常愚蠢。但有趣的是,当今最先进的人工智能系统将难以回答这些问题。诸如上面提出的问题需要能够推理对象及其行为和关系随着时间的推移。这是人类智能的一个组成部分,但几十年来,人工智能科学家仍然难以捉摸。

IBM、麻省理工学院、哈佛和 DeepMind 的研究人员在 ICLR 上发表的一项新研究强调了当前人工智能系统在处理视频因果关系方面的缺点。在他们的论文中,研究人员介绍了 CLEVRER,一个新的数据集和基准,用于评估 AI 算法在推理视频序列方面的能力,以及神经符号动态推理 (NS-DR),一个混合 AI 系统,标志着因果关系的重大改进在受控环境中进行推理。

为什么人工智能不能对视频进行推理

对于我们人类来说,检测和推理场景中的物体几乎是齐头并进的。但是对于当前的人工智能技术,它们是两个根本不同的学科。

在过去的几年里,深度学习给人工智能领域带来了巨大的进步。深度神经网络是深度学习算法的主要组成部分,可以在大量数据中找到复杂的模式。这使他们能够执行以前计?算机软件禁止或非常困难的任务,例如检测图像中的对象或识别语音。

单靠模式识别可以实现的效果令人惊讶。神经网络在我们每天使用的许多应用程序中都发挥着重要作用,从在 Google 图片中查找对象和场景到检测和阻止社交媒体上的不当内容。神经网络在生成关于视频和图像的描述方面也取得了一些进展。

但是,您可以将模式识别推到什么程度也有非常明显的限制。虽然是人类视觉的重要组成部分,但模式识别只是其众多组成部分之一。当我们的大脑解析本文开头的棒球视频时,我们对运动、物体持久性、实体性和运动的了解开始发挥作用。基于这些知识,我们可以预测接下来会发生什么(球会去哪里)和反事实情况(如果球棒没有击中球会怎样)。这就是为什么即使是从未看过棒球比赛的人也会对这段视频有很多话要说。

然而,深度学习算法会检测场景中的对象,因为它们在统计上与它在训练期间看到的数千个其他对象相似。它对材料、重力、运动和冲击一无所知,其中一些概念使我们能够对场景进行推理。

视觉推理是人工智能研究的一个活跃领域。研究人员开发了几个数据集来评估人工智能系统对视频片段进行推理的能力。仅靠深度学习能否解决问题是一个悬而未决的问题。

一些人工智能科学家认为,如果有足够的数据和计算能力,深度学习模型最终将能够克服其中的一些挑战。但到目前为止,在需要常识和推理的领域取得的进展很小而且是渐进的。

CLEVRER 数据集

在 ICLR 上引入的新数据集被命名为“用于视频表示和推理的碰撞事件”或 CLEVRER。它的灵感来自CLEVR,在2017年CLEVR在斯坦福大学开发出一种视觉答疑数据集是一组的问题,固体物体的存在静止图像。AI 代理必须能够解析场景并回答有关对象数量、属性和空间关系的多项选择题。

CLEVRER 由固体物体相互移动和碰撞的视频组成。将测试 AI 代理回答有关场景的描述性、解释性、预测性和反事实问题的能力。例如,在下面的场景中,人工智能将被问到如下问题:

描述:最后一个物体与圆柱体碰撞的材料是什么?

解说:橡胶缸与红色橡胶球的碰撞是否会导致橡胶与金属缸的碰撞?

预测:金属球体和灰色圆柱体会碰撞吗?

反事实:如果我们从场景中移除青色圆柱体,红色橡胶球和灰色圆柱体会碰撞吗?

就像本文开头就视频提出的问题一样,这些问题对您来说可能听起来微不足道。但它们是使用当前混合的 AI 完成的复杂任务,因为它们需要对场景的因果理解。

正如论文作者总结的那样,解决 CLEVRER 问题需要三个关键要素:“识别视频中的对象和事件;建模对象和事件之间的动态和因果关系;以及对问题背后的符号逻辑的理解。”

“CLEVRER 是第一个视觉推理数据集,专为视频中的随意推理而设计。以前的视觉推理数据集主要关注事实问题,例如什么、何时、何地和是/是。但最基本的推理能力是理解'为什么'”麻省理工学院-IBM沃森人工智能实验室的研究科学家、CLEVRER论文的合著者Chuang Gan告诉TechTalks。

受控环境

根据论文作者的说法,CLEVRER 是“一个完全受控的合成环境”。对象的种类和材料很少,所有问题都设置在一个平面上,并且问题中使用的词汇有限。这一点细节非常重要,因为当前的人工智能系统在处理可能发生的事件组合是无限的开放环境方面非常糟糕。

受控环境使 CLEVRER 的开发人员能够提供带有丰富注释的示例来评估 AI 模型的性能。它允许人工智能研究人员将他们的模型开发集中在复杂的推理任务上,同时消除其他障碍,如图像识别和语言理解。

但这也意味着,如果一个 AI 模型在 CLEVRER 上的得分很高,这并不一定意味着它能够处理现实世界中任何事情都可能发生的混乱局面。但是,该模型可能适用于其他有限的环境。

“在视频中使用时间推理和因果推理可以在机器人和自动驾驶应用中发挥重要作用,”甘说。“例如,如果发生交通事故,可以使用 CLEVRER 模型来分析监控视频并找出导致事故的原因。在机器人应用中,如果机器人可以遵循自然语言命令并采取相应的行动,这也很有用。”

神经符号动态推理 AI 模型

该论文的作者在基本深度学习模型上测试了 CLEVRER,例如卷积神经网络 (CNN)结合多层感知器 (MLP) 和长短期记忆网络 (LSTM)。他们还在高级深度学习模型 TVQA、IEP、TbDNet 和 MAC 的变体上对它们进行了测试,每个模型都经过修改以更好地适应视觉推理。

基本的深度学习在描述性挑战中表现一般,而在其他方面表现不佳。一些高级模型在描述性挑战中表现不错。但在其他挑战中,准确率大幅下降。基于纯神经网络的 AI 模型缺乏对对象及其行为之间的因果关系和时间关系的理解。他们还缺乏一个世界模型,可以让他们预见接下来会发生什么,并弄清楚替代的反事实场景是如何运作的。

作为解决方案,研究人员引入了神经符号动态推理模型,这是神经网络和符号人工智能的结合。随着深度学习的兴起,符号人工智能,也称为基于规则的人工智能,已经被淘汰了。与神经网络不同,符号 AI 系统在处理视觉数据和书面文本等非结构化信息方面非常糟糕。但另一方面,基于规则的系统非常擅长符号推理和知识表示,这一领域一直是机器学习算法的痛点。

NS-DR 充分利用了神经网络和符号推理系统:

卷积神经网络从图像中提取对象。

LSTM 处理问题并将它们转换为程序命令。

传播网络从 CNN 提取的对象数据中学习物理动力学,并预测未来的对象行为。

最后,一个 Python 程序将从神经网络获得的所有结构化信息汇集在一起?以编译问题的答案。

NS-DR 在解释性、预测性和反事实挑战方面的性能明显高于纯深度学习模型。然而,反事实基准仍然保持在 42% 的适度准确率,这说明了开发能够像我们一样理解世界的人工智能所面临的挑战。但与性能最佳的基线深度学习模型 25% 的准确率相比,它仍然是一个显着的进步。

NS-DR 的另一个显着优势是它在训练阶段需要的数据要少得多。

结果表明,将神经网络和符号程序结合在同一个 AI 模型中,可以结合它们的优点并克服它们的缺点。“符号表示为视觉、语言、动态和因果关系提供了强大的共同基础,”作者指出,并补充说符号程序使模型能够“明确捕捉视频因果结构和问题逻辑背后的组合性”。

NS-DR 的好处确实伴随着一些注意事项。用于训练模型的数据需要额外的注释,这在实际应用中可能过于耗能和昂贵。

左顾右看 2023-08-19 12:27:41

相关推荐

心里迷茫的伤感句子

1、暧昧的人,连再见都不知从何说起,因为本来就没有关系,因为我们谁也不是谁的谁。2、就算很失望,笑容依然要灿烂!3、学习要加,骄傲要减,机会要乘,懒惰要除。4、朋友之间很少谈论未来,但是未来他们往往还在一起;恋...
展开详情

火龙果水果保鲜的方法

1、在室内要尽量将火龙果放置在阴凉并且没有光的地方,一般情况下只能存放一天。2、火龙果在切开后有剩余,可用保鲜膜或袋子包起来,放在冰箱中冷藏。3、火龙果属于热带水果,因此在冰箱冷藏时,要将温度调为十五度,此方法...
展开详情

新年烧香祈福说说

1、阿弥陀佛,人生在世不容易,求佛菩萨保佑我全家人苦难不近身,平安健康永相随,一切万事顺心如意。2、愿你我生生世世长相逢,同行同愿同圆种智功德海。3、阿弥陀佛,祝福所有亲人朋友,健健康康、平平安安。4、求佛保佑...
展开详情

新年感言一句话

1、祝愿新的一年身边的家人朋友都开开心心、健健健康、好运连连!2、我的祝福,如春天般的温柔甜蜜,长久深深种植地保留在您的心田,祝妈妈您拥有甜蜜温馨快乐的一年!3、亲爱的自己,永远不要为难自己,比如不吃饭、哭泣、...
展开详情

手上有倒刺应该怎么解决

1、温水泡手有人说起了倒刺的时候我不用手直接撕,用剪刀剪去不就行了么?不是的哈,正确的处理方法是打一盆四十度左右的水,然后把手浸泡进去,这样浸泡五分钟之后,手指甲以及手上的倒刺,还有手指头周围的皮肤都变的非常柔...
展开详情

精选推荐更多>

白杨礼赞的礼赞是什么意思

《白杨礼赞》中“礼赞”的意思就是崇敬而赞美,以“赞美白杨树的不平凡”作为抒情线索,把白杨树生长环境的不平凡,外部形态的不平凡和内在气质的不平凡构成一体。
《白杨礼赞》是茅盾1941年在重庆写的。茅盾耳闻目睹在党领导下抗日根据地人民的沸腾生活,体验到抗日军民质朴、刚强、团结一致、艰苦奋斗的精神,受到极大的鼓舞,对民族解放的光明前途充满信心,满怀激情。这篇文章采用象征手法,通过对白杨树不平凡的形象的赞美,歌颂了中国共产党领导下的抗日军民和整个中华民族的紧密团结、力求上进、坚强不屈的革命精神和斗争意志。

天门中断楚江开的开字妙在何处

“天门中断楚江开”中“开”字妙在以下三个方面:
1、体现出楚江的霸气和恢弘。
2、体现出楚江的雄浑和刚强。
3、形象地描绘了天门山被楚江隔开的景象。
出自《望天门山》:“天门中断楚江开,碧水东流至此回。两岸青山相对出,孤帆一片日边来。”
译文:
天门山从中间断裂是楚江把它冲开,碧水向东浩然奔流到这里折回。
两岸高耸的青山隔着长江相峙而立,江面上一叶孤舟像从日边驶来。
《望天门山》是唐代大诗人李白于开元十三年(725年)赴江东途中行至天门山时所创作的一首七绝。此诗描写了诗人舟行江中顺流而下远望天门山的情景:前两句用铺叙的方法,描写天门山的雄奇壮观和江水浩荡奔流的气势;后两句描绘出从两岸青山夹缝中望过去的远景,显示了一种动态美。全诗通过对天门山景象的描述,赞美了大自然的神奇壮丽,表达了作者初出巴蜀时乐观豪迈的感情,展示了作者自由洒脱、无拘无束的精神风貌。作品意境开阔,气象雄伟,动静虚实,相映成趣,并能化静为动,化动为静,表现出一种新鲜的意趣。

什么叫沟通

沟通,汉语词语,拼音为gōu tōng,意思是使双方互相通连,也指人与人之间、人与群体之间思想与感情的传递和反馈的过程,以求思想达成一致和感情的通畅。
没有出处。
近义词:交流、商议、商量。
反义词:堵塞、封闭。
用法:作动词;作谓语;中性词;可用于人,也可用于事物。
例句:有效的沟通并不只是说话就行的,应该是言简意赅,也就是用最少的话把意思表达清楚。
造句:
1、虽然同是中国人,各地区的方言却千差万别,很难互相沟通。必须普及普通话,达到用语言交流的目的。
2、沟通是春天的暖流,充满渴望;沟通是夏天的骄阳,炽热无比;沟通是秋天的大雁,盼望南飞;沟通是冬天的火炉,温暖人间。
3、如果沟通是漆黑的深夜,那么语言便引着你走向皓月当空,繁星满天;如果沟通是通向一望无际的沙漠,那么语言是引领你走向鸟语花香的绿洲;如果沟通是浩瀚无边的大海,那么语言便引领你走向乘风破浪的境界。

风雪夜归人是什么意思

“风雪夜归人”意思是风雪夜回宿的家人回来了。出自唐代诗人刘长卿的《逢雪宿芙蓉山主人》,这首诗首句写日暮山远,次句写投宿的人家,后两句写风雪交加、犬吠人归的情景。全诗语言朴实浅显,写景如画,叙事虽然简朴,含意十分深刻。
原文:
日暮苍山远,天寒白屋贫。
柴门闻犬吠,风雪夜归人。
译文:
暮色降山苍茫愈觉路途远,天寒白屋显得更贫困。
柴门外忽传来犬吠声声,风雪夜回宿的家人回来了。
这首诗用极其凝炼的诗笔,描画出一幅以旅客暮夜投宿、山家风雪人归为素材的寒山夜宿图。诗是按时间顺序写下来的。首句写旅客薄暮在山路上行进时所感,次句写到达投宿人家时所见,后两句写入夜后在投宿人家所闻。每句诗都构成一个独立的画面,而又彼此连属。诗中有画,画外见情。
常见热点问答
热点搜索
1-20
21-40
41-60
61-80
81-100
101-120
121-140
141-160
161-180
181-200
作文大全
1-20
21-40
41-60
61-80
81-100
101-120
121-140
141-160
161-180
181-200