2月22日CNNs和人类视觉的区别
“CNN 端到端地学习一切。他们通过布线获得了巨大的胜利,因为如果一个功能在一个地方很好,它在其他地方也很好。这使他们能够结合证据并很好地概括不同的立场,”Hinton 在他的 AAAI 演讲中说。“但它们与人类的感知非常不同。”
计算机视觉的关键挑战之一是处理现实世界中数据的变化。我们的视觉系统可以从不同的角度、不同的背景和不同的照明条件下识别物体。当物体被其他物体部分遮挡或以古怪的方式着色时,我们的视觉系统会使用线索和其他知识来填充缺失的信息和我们所看到的原因。
事实证明,创建可以复制相同对象识别功能的 AI 非常困难。
“CNN 旨在应对翻译,”Hinton 说。这意味着一个训练有素的卷积网络可以识别一个物体,而不管它出现在图像中的什么位置。但是它们不太擅长处理改变视点的其他影响,例如旋转和缩放。
根据 Hinton 的说法,解决这个问题的一种方法是使用 4D 或 6D 地图来训练 AI,然后执行对象检测。“但这只会变得非常昂贵,”他补充道。
目前,我们最好的解决方案是收集大量图像,将每个对象显示在不同的位置。然后我们在这个庞大的数据集上训练我们的 CNN,希望它能看到足够多的对象示例进行泛化,并能够在现实世界中以可靠的准确度检测对象。ImageNet 等数据集包含超过 1400 万张带注释的图像,旨在实现这一目标。
“这不是很有效,”Hinton 说。“我们希望神经网络能够毫不费力地推广到新的观点。如果他们学会了识别某样东西,你把它放大 10 倍,然后旋转 60 度,那根本不会给他们带来任何问题。我们知道计算机图形学就是这样,我们想让神经网络更像那样。”
事实上,目前评估计算机视觉系统的首选基准 ImageNet 已被证明存在缺陷。尽管数据集规模巨大,但无法捕获对象的所有可能角度和位置。它主要由在理想照明条件下和从已知角度拍摄的图像组成。
这对于人类视觉系统来说是可以接受的,它可以很容易地概括其知识。事实上,当我们从几个角度看到某个物体后,我们通常可以想象它在新的位置和不同的视觉条件下会是什么样子。
但是 CNN 需要他们需要处理的案例的详细示例,而且它们没有人类思维的创造力。深度学习开发人员通常尝试通过应用称为“数据增强”的过程来解决这个问题,在该过程中,他们在训练他们的神经网络之前翻转图像或少量旋转图像。实际上,CNN 将在每张图像的多个副本上进行训练,每个副本都略有不同。这将有助于 AI 更好地概括同一对象的变化。数据增强在某种程度上使 AI 模型更加健壮。
但数据增强不会涵盖 CNN 和其他神经网络无法处理的极端情况,例如翻转的椅子或躺在床上的皱巴巴的 T 恤。这些是像素操作无法实现的现实情况。
已经努力通过创建计算机视觉基准和训练更好地代表现实世界混乱现实的数据集来解决这个泛化问题。但是,虽然它们将改善当前 AI 系统的结果,但它们并没有解决跨观点泛化的根本问题。总会有这些新数据集不包含的新角度、新光照条件、新颜色和姿势。这些新情况甚至会迷惑最大、最先进的人工智能系统。