2月28日关于计算机视觉当前状态的几点说明
在对计算机视觉的进步过于兴奋之前,了解当前人工智能技术的局限性很重要。虽然改进很重要,但我们距离拥有能够像人类一样理解照片和视频的计算机视觉算法还有很长的路要走。
目前,深度神经网络(计算机视觉系统的肉和土豆)非常擅长在像素级别匹配模式。它们在对图像进行分类和定位图像中的对象方面特别有效。但是当涉及到理解视觉数据的上下文和描述不同对象之间的关系时,他们就惨败了。
最近在该领域所做的工作表明了计算机视觉算法的局限性以及对新评估方法的需求。尽管如此,计算机视觉的当前应用表明仅通过模式匹配可以完成多少工作。在这篇文章中,我们将探讨其中的一些应用程序,但我们也会讨论它们的限制。
计算机视觉的商业应用
您每天都在使用计算机视觉应用程序,在某些情况下可能没有注意到它。以下是计算机视觉的一些实用和流行的应用,它们使生活变得有趣和方便。
图片搜索
计算机视觉取得巨大进步的领域之一是图像分类和对象检测。在足够多的标记数据上训练的神经网络将能够以令人印象深刻的准确度检测和突出各种对象。
很少有公司能与谷歌的海量用户数据相匹敌。该公司一直在使用其几乎无限(且不断增长)的用户数据存储库来开发一些最有效的人工智能模型。当您在 Google 相册中上传照片时,它会使用其计算机视觉算法为照片添加有关场景、对象和人物的内容信息的注释。然后,您可以根据此信息搜索您的图像。
例如,如果您搜索“狗”,Google 会自动返回您图书馆中所有包含狗的图片。
然而,谷歌的图像识别并不完美。在一次事件中,计算机视觉算法错误地将两张皮肤黝黑的人的照片标记为“大猩猩”,这给公司造成了尴尬。
Google 还使用计算机视觉从您的图书馆、云端硬盘和 Gmail 附件中的图像中提取文本。例如,当您在收件箱中搜索字词时,Gmail 也会查看图片中的文本。不久前,我在 Gmail 中搜索了我的家庭地址,并收到一封带有图片附件的电子邮件,其中包含一个亚马逊包裹,里面有我的地址。