2月21日现有深度学习模型在ObjectNet上的表现如何
与其他数据集不同,ObjectNet 仅包含一个测试数据集。它没有与训练数据配对。麻省理工学院和 IBM 的研究人员写道:“分离训练集和测试集集合可能是避免两者之间相关性的重要工具,大型模型可以轻松访问但人类无法检测到这些相关性。” “由于人类很容易泛化到新的数据集,采用这种分离可以鼓励新的机器学习技术做同样的事情。”
ObjectNet 测试还不允许进行微调以避免将 AI 模型过度拟合到数据集中包含的数据。
在 AlexNet、ResNet 和 Inception 等流行的图像分类器上进行测试时,研究人员发现性能下降了 40-45%。
研究人员观察到“性能差距很大,具体取决于背景 (15%)、旋转 (20%) 和视点 (15%)。” 发生这种情况时,研究人员没有具体说明在房间的哪个位置摆姿势以及拍照时背景应该有多混乱。
即使对 AI 模型进行微调,性能提升也非常有限。与此同时,人类在数据集上的得分为 95%。
“由于现实世界的图像和控件的交集,ObjectNet 具有挑战性。它将物体检测器推到今天可以推广的条件之外,”研究人员写道。
在 ObjectNet 上所做的工作也揭示了通过向 AI 模型投入更多数据来尝试解决问题的方法的问题。
“更多的数据可以改善结果,但收益最终会饱和。许多对象识别应用程序的预期性能远低于传统数据集所显示的,”研究人员写道。
研究人员观察到,对对象检测器进行较大的架构更改以直接解决像 ObjectNet 中受控的现象“将是有益的,并可能提供下一次大幅性能提升”。“ObjectNet 可以作为一种手段来证明这种稳健性,这在标准基准测试中是看不到的。”
“我们需要开发抽象和推理机制,”Gutfreund 告诉 TechTalks。“注意力机制,它了解图像的哪些部分是最重要的部分(从而忽略背景中不重要的细节)也很重要,并且在过去几年中一直是广泛研究的主题。最近也广泛研究了直接解决分布不均问题的迁移和零样本学习技术。”