你如何衡量对深度学习的信任
2022年2月9日整理发布:无论是诊断病人还是驾驶汽车,我们都想知道在分配敏感任务之前我们是否可以信任一个人。在人类世界中,我们有不同的方法来建立和衡量可信度。在人工智能中,信任的建立仍在发展中。
在过去的几年里,深度学习已被证明在计算机视觉、自然语言处理和其他以前计算机禁区的困难任务方面表现出色。但我们也有充分的证据表明,盲目信任人工智能算法会导致灾难:错过车道分隔线的自动驾驶汽车、寻找标尺而不是恶性皮肤图案的黑色素瘤检测器以及歧视女性的招聘算法只是过去几年报道的许多事件中的一些。
滑铁卢大学和总部位于多伦多的人工智能公司 Darwin AI 的科学家最近的工作提供了新的指标,以直观和可解释的方式衡量深度学习系统的可信度。信任通常是一个主观问题,但他们在两篇论文中提出的研究为评估 AI 模型可以和不可以信任的情况范围提供了明确的指导方针。
你对机器学习有多信任?
多年来,机器学习研究人员通过准确度、精度和 F1 分数等指标来衡量其模型的可信度。这些指标比较了机器学习模型以各种方式做出的正确和错误预测的数量。他们可以回答重要的问题,例如模型是否在进行随机猜测,或者它是否真的学到了一些东西。但是计算正确预测的数量并不一定能告诉你机器学习模型是否正确地完成了它的工作。
最近,该领域对可解释性表现出越来越大的兴趣,可解释性是一组试图解释深度神经网络做出的决策的技术。一些技术突出了有助于深度学习模型输出的像素。例如,如果您的卷积神经网络已将图像分类为“绵羊”,则可解释性技术可以帮助您确定神经网络是否学会了检测绵羊,或者它是否将一片草丛分类为绵羊。
可解释性技术可以帮助您了解深度学习模型的工作原理,但不能帮助您了解它何时何地可以信任和不可以信任。
在他们的第一篇论文中,题为“我们能真正信任你多少?为了实现深度神经网络的简单、可解释的信任量化指标,”达尔文人工智能和滑铁卢大学的人工智能研究人员介绍了四个新指标,用于“根据回答一组问题时的行为评估深度神经网络的整体可信度。”
虽然还有其他关于衡量信任的论文和研究工作,但这四个指标旨在为日常使用提供实用性。一方面,人工智能系统的开发者和用户应该能够不断地计算和使用这些指标来不断地监控他们的深度学习模型不能被信任的领域。另一方面,指标应该简单且可解释。
在第二篇论文中,题为“信任在哪里崩溃?通过信任矩阵和条件信任密度对深度神经网络进行定量信任分析”,研究人员介绍了“信任矩阵”,这是跨不同任务的信任指标的可视化表示。
过于自信还是过于谨慎?
考虑两种类型的人,一种对自己的错误决定过于自信,另一种对正确决定过于犹豫。两者都将是不值得信赖的合作伙伴。我们都喜欢与行为平衡的人一起工作:他们应该对自己的正确答案充满信心,并且知道什么时候任务超出了他们的能力范围。
在这方面,机器学习系统与人类没有太大区别。如果神经网络以 99% 的置信度将停车标志归类为限速标志,那么您可能不应该将它安装在您的自动驾驶汽车中。同样,如果另一个神经网络只有 30% 的把握它站在路上,那么它对驾驶你的汽车没有多大帮助。
“问答信任”是研究人员引入的第一个指标,用于衡量 AI 模型对其正确和错误答案的信心。与经典指标一样,它考虑了机器学习模型做出的正确和错误预测的数量,但也考虑了它们的置信度分数,以惩罚过度自信和过度谨慎。
假设您的机器学习模型必须对九张照片进行分类并确定哪些照片包含猫。问答信任度量将通过其置信度分数来奖励每个正确的分类。所以很明显,更高的置信度分数将获得更高的奖励。但该指标还将通过置信度得分的倒数(即 100% - 置信度得分)来奖励错误答案。因此,错误分类中的低置信度分数可以获得与正确分类中的高置信度一样多的奖励。
获得较少奖励的两种?行为是对错误预测的高信心和对正确预测的低信心。
这个指标的有趣之处在于,与精确度和准确度得分不同,它与您的机器学习模型做出多少正确预测无关——毕竟,没有人是完美的。而是关于模型预测的可信度。