机器学习中什么是成员推理攻击
2022年1月4日整理发布:机器学习的奇迹之一是它可以将任何类型的数据转化为数学方程。一旦您根据训练示例(无论是图像、音频、原始文本还是表格数据)训练机器学习模型,您将获得一组数值参数。在大多数情况下,模型不再需要训练数据集,而是使用调整后的参数将新的和未见过的示例映射到类别或值预测。
然后,您可以丢弃训练数据并在 GitHub 上发布模型或在您自己的服务器上运行它,而无需担心存储或分发训练数据集中包含的敏感信息。
但是一种称为“成员推理”的攻击可以检测用于训练机器学习模型的数据。在许多情况下,攻击者无需访问机器学习模型的参数,只需观察其输出即可进行成员推理攻击。在目标模型已针对敏感信息进行训练的情况下,成员资格推断可能会导致安全和隐私问题。
从数据到参数
每个机器学习模型都有一组“学习参数”,其数量和关系因使用的算法和架构类型而异。例如,简单回归算法使用一系列参数将输入特征直接映射到模型的输出。另一方面,神经网络使用复杂的参数层来处理输入并在到达最后一层之前将它们相互传递。
但无论您选择哪种算法,所有机器学习模型在训练过程中都会经历类似的过程。他们从随机参数值开始,并逐渐将它们调整到训练数据。受监督的机器学习算法,例如用于图像分类或检测垃圾邮件的算法,会调整其参数以将输入映射到预期结果。
例如,假设您正在训练一个深度学习模型以将图像分为五个不同的类别。该模型可能由一组提取图像视觉特征的卷积层和一组将每个图像的特征转换为每个类别的置信度分数的密集层组成。
模型的输出将是一组值,表示图像属于每个类的概率。您可以假设图像属于概率最高的类别。例如,输出可能如下所示:
猫:0.90
狗:0.05
鱼:0.01
树:0.01
船:0.01
在训练之前,模型将提供不正确的输出,因为其参数具有随机值。您可以通过为它提供一组图像及其相应的类来训练它。在训练过程中,模型逐渐调整参数,使其输出置信度得分尽可能接近训练图像的标签。
基本上,该模型将每种类型图像的视觉特征编码为其参数。
成员推理攻击
一个好的机器学习模型不仅可以对训练数据进行分类,还可以将其能力推广到以前从未见过的示例中。这个目标可以通过正确的架构和足够的训练数据来实现。
但总的来说,机器学习模型往往在其训练数据上表现更好。例如,回到上面的例子,如果你将你的训练数据与一堆新图像混合并通过你的神经网络运行它们,你会看到它在训练示例上提供的置信度得分将高于它以前从未见过的图像。
成员推理攻击利用此属性来发现或重建用于训练机器学习模型的示例。这可能会对使用其数据记录来训练模型的人产生隐私影响。
在成员推理攻击中,攻击者不一定需要了解目标机器学习模型的内部参数。相反,攻击者只知道模型的算法和架构(例如 SVM、神经网络等)或用于创建模型的服务。
随着谷歌和亚马逊等大型科技公司提供的机器学习即服务 (MaaS) 产品的增长,许多开发人员被迫使用它们,而不是从头开始构建模型。这些服务的优势在于它们抽象了机器学习的许多复杂性和要求,例如选择正确的架构、调整超参数(学习率、批量大小、时期数、正则化、损失函数等)和设置建立优化训练过程所需的计算基础设施。开发者只需要建立一个新模型并为其提供训练数据。剩下的就交给服务了。
权衡是如果攻击者知道受害者使用了哪个服务,他们可以使用相同的服务来创建成员推理攻击模型。
事实上,在 2017 年 IEEE 安全和隐私研讨会上,康奈尔大学的研究人员提出了一种成员推理攻击技术,该技术适用于所有主要的基于云的机器学习服务。
在这种技术中,攻击者为云服务上的目标机器学习模型创建随机记录。攻击者将每条记录输入模型。根据模型返回的置信度分数,攻击者调整记录的特征并由模型重新运行。这个过程一直持续到模型达到非常高的置信度。此时,记录与用于训练模型的示例之一相同或非常相似。
在收集到足够高的置信度记录后,攻击者使用数据集训练一组“影子模型”来预测数据记录是否是目标模型训练数据的一部分。这创建了一个模型集合,可以训练成员推理攻击模型。然后,最终模型可以预测数据记录是否包含在目标机器学习模型的训练数据集中。
研究人员发现,这种攻击在许多不同的机器学习服务和架构上都取得了成功。他们的发现表明,训练有素的攻击模型还可以区分训练数据集成员和从目标机器学习模型获得高置信度分数的非成员之间的差异。
成员推断的限制
成员推理攻击在所有类型的机器学习任务上都不是很成功。为了创建有效的攻击模型,对手必须能够探索特征空间。例如,如果机器学习模型对高分辨率照片执行复杂的图像分类(多类),则为成员推理攻击创建训练示例的成本将高得惊人。
但是对于处理表格数据(例如财务和健康信息)的模型,精心设计的攻击可能能够提取敏感信息,例如患者与疾病之间的关联或目标人群的财务记录。
成员推断也与“过拟合”高度相关,这是机器学习设计和训练不佳的产物。过度拟合的模型在其训练示例上表现良好,但在新数据上表现不佳。过拟合的两个原因是训练样本太少或训练过程运行时间过多。
机器学习模型越过拟合,对手就越容易对其进行成员推理攻击。因此,在未见过的示例上泛化良好的机器模型对于成员推断也更安全。