深度学习不需要成为黑匣子
2022年2月14日整理发布:由于其庞大而复杂的参数网络,深度神经网络可以执行出色的任务。但它们的复杂性也是它们的祸根:神经网络的内部运作通常是一个谜——即使对它们的创造者来说也是如此。自 2010 年代初深度学习开始流行以来,这一挑战一直困扰着人工智能社区。
随着深度学习在各个领域和应用中的扩展,人们对开发试图通过检查其结果和学习参数来解释神经网络的技术越来越感兴趣。但这些解释通常是错误的和误导性的,并且它们几乎没有为修复训练期间嵌入深度学习模型中可能存在的误解提供指导。
在同行评审期刊Nature Machine Intelligence上发表的一篇论文中,杜克大学的科学家提出了“概念白化”,一种可以帮助引导神经网络在不牺牲性能的情况下学习特定概念的技术。概念白化将可解释性融入深度学习模型,而不是在数百万个经过训练的参数中寻找答案。该技术可应用于卷积神经网络,显示出可喜的结果,并对我们如何看待未来的人工智能研究产生重大影响。
深度学习模型中的特征和潜在空间
给定足够高质量的训练示例,具有正确架构的深度学习模型应该能够区分不同类型的输入。例如,在计算机视觉任务的情况下,经过训练的神经网络将能够将图像的像素值转换为相应的类别。(由于概念白化用于图像识别,我们将坚持机器学习任务的这个子集。但这里讨论的许多主题通常适用于深度学习。)
在训练过程中,深度学习模型的每一层都将训练图像的特征编码为一组数值,并将它们存储在其参数中。这称为 AI 模型的潜在空间。一般来说,多层卷积神经网络的较低层将学习基本特征,例如角和边缘。神经网络的较高层将学习检测更复杂的特征,例如人脸、物体、完整场景等。
理想情况下,神经网络的潜在空间将代表与其要检测的图像类别相关的概念。但我们不确定这一点,深度学习模型很容易学习最具辨别力的特征,即使它们是错误的。
例如,以下数据集包含恰好在右下角有徽标的猫的图像。人类很容易将徽标视为与任务无关。但是深度学习模型可能会发现它是区分猫和其他动物的最简单、最有效的方法。同样,如果您的训练集中的所有绵羊图像都包含大片绿色牧场,您的神经网络可能会学习检测绿色农田而不是绵羊。
因此,除了深度学习模型在训练和测试数据集上的表现如何之外,重要的是要知道它学会了检测哪些概念和特征。这就是经典解释技术发挥作用的地方。