针对对抗样本验证神经网络的鲁棒性
Chen 和他的同事所做的第二部分工作围绕创建可以衡量神经网络对对抗性示例的弹性的基准。“在这里,我们想告诉开发人员和用户,他们的神经网络和 AI 模型对对抗性攻击的抵抗力如何,”Chen 说。
该方法称为CNN-Cert,它探测卷积神经网络 (CNN) 以找到它们的抗扰动阈值。CNN是目前最复杂、最先进的神经网络类型,广泛应用于自动驾驶汽车、医学成像、面部识别和语音识别等各个领域。
“这篇论文的特别之处在于,认证方法针对卷积神经网络进行了优化。以前的工作主要集中在更简单的神经网络模型上,例如多层感知器,”Chen 说。
与 AutoZOOM 方法相反,CNN-Cert 需要完全了解神经网络的结构。该方法使用数学技术来定义每一层和每个神经元的输入输出关系的阈值。这使它能够确定不同范围内输入的变化将如何影响每个单元和层的输出。
CNN-Cert 首先在单个神经元和层上执行该过程,然后将其传播到整个网络。最终结果是一个阈值,它决定了网络在其输出值变得错误之前可以抵抗的扰动量。
这很重要,因为对抗性攻击基本上是通过改变输入值来操纵神经网络的预测输出值,从而在这些边界上发挥作用,Chen 解释说。
“如果我们可以在这些输入向量上放置区间,并允许这些区间通过我们定义的层传播,我们就可以计算出输入中的扰动在输出中的样子,并且当我们建立一个范围时,我们还可以提供保证关于模型的性能,”陈说。
认证是特定于输入的,这意味着 CNN-Cert 必须单独应用于不同的图像。
“有些图像更容易操作,而另一些则更难。所以我们不能对模型是否健壮做出二元决定。我们尝试为每个输入数据提供证书,以及您的模型在该数据的预测结果方面的可信度,”Chen 说。
CNN-Cert 的目标是提供一个认证,一个鲁棒性标签,它会告诉你在不同类型的输入上你可以对你的 AI 模型投入多大的信任度。CNN-Cert 独立于对抗性攻击算法,因此它可以应用于现有的攻击以及未来看不见的更强的攻击。
Chen 希望在未来,CNN-Cert 等方法可以帮助建立 AI 模型在部署之前必须满足的标准。这在自动驾驶汽车和医疗保健等领域尤其重要,在这些领域,不可靠的人工智能模型可能会对人们的生活产生可怕的影响。
“我们在危急情况下部署人工智能模型,我们对这些人工智能模型寄予厚望,”陈说。“因此,我们希望它们不仅准确,而且稳健。稳健性非常重要,不仅因为对手有空间操纵 AI 模型,还因为当 AI 模型部署在现场时,它们无法在理想的训练环境中运行。他们会遇到从未见过的事情。我们必须确保他们能够泛化到他们在训练数据中从未见过的新事物。它们必须对来自环境和对手的扰动具有鲁棒性。”