人类视觉是一项非常复杂的有机技术
由于深度学习,计算机视觉已经能够解决本文开头提到的两个问题中的第一个,即图像和视频中对象的检测和分类。事实上,深度学习在图像分类方面已经能够超越人类的表现。然而,尽管命名法让人联想到人类智能,但神经网络的运作方式与人类思维根本不同。人类视觉系统依赖于基于我们在脑海中构建的 3D 模型来识别对象。我们还能够将知识从一个领域转移到另一个领域。例如,如果我们第一次看到一种新动物,我们可以快速识别出大多数动物身上的一些身体部位,例如鼻子、耳朵、尾巴、腿……
深度神经网络没有这些概念的概念,它们分别发展了对每一类数据的知识。从本质上讲,神经网络是比较成批像素的统计模型,尽管方式非常复杂。这就是为什么他们需要先看很多例子,然后才能建立必要的基础来识别每个对象。因此,如果没有正确训练,神经网络可能会犯愚蠢(和危险)的错误。
但是计算机视觉真正苦苦挣扎的地方是理解图像的上下文以及他们看到的对象之间的关系。我们人类可以不假思索地快速判断出文章开头的图片是家庭野餐,因为我们对它所代表的抽象概念有所了解。我们知道什么是家庭。我们知道一片草地是一个令人愉快的地方。我们知道人们通常在餐桌上吃饭,而围着桌布坐在地上的户外活动可能是一种休闲活动,尤其是当照片中的所有人都很开心时。当我们看到这张照片时,所有这些以及我们在生活中经历过的无数其他小经历很快就会浮现在我们的脑海中。同样,如果我告诉你一些不寻常的事情。
对于计算机视觉算法,图片仍然是可以统计映射到特定描述的彩色像素阵列。除非你专门针对家庭野餐的照片训练神经网络,否则它无法在照片中看到的不同物体之间建立联系。即使经过训练,该网络也只会有一个统计模型,该模型可能会将任何有很多草、几个人和桌布的图片标记为“家庭野餐”。它不会根据上下文知道野餐是什么。因此,它可能会错误地将一张在户外吃东西的贫穷家庭的照片归类为幸福的家庭野餐。它可能无法分辨出下面的图片是动物野餐的图画。
一些专家认为,只有破解通用 AI的密码,才能实现真正的计算机视觉,即具有人类思维抽象和常识能力的人工智能。我们不知道何时或是否会发生这种情况。在那之前,或者直到我们找到其他可以利用神经网络优势的方式来表示概念之前,我们将不得不在我们的计算机视觉算法中投入越来越多的数据,希望我们能够解释所有可能的情况他们应该能够识别的对象类型和上下文。