当前可解释的AI方法有什么问题
2022年1月14日整理发布:经典的符号 AI 系统基于开发人员创建的手动规则。无论它们变得多么庞大和复杂,他们的开发人员都可以逐行跟踪他们的行为,并调查错误,直至错误发生的机器指令。相比之下,机器学习算法通过比较训练示例和创建统计模型来发展它们的行为。因此,即使对他们的开发人员来说,他们的决策逻辑也常常是模棱两可的。
机器学习的可解释性问题既是众所周知的,也是经过充分研究的。在过去的几年里,它引起了著名学术机构和国防部研究机构 DARPA的兴趣。
该领域的努力一般分为两类:全局解释和局部解释。全局解释技术专注于寻找对机器学习模型如何工作的一般解释,例如它认为其输入数据的哪些特征与其决策更相关。局部解释技术专注于确定特定输入的哪些部分与 AI 模型做出的决策相关。例如,他们可能会生成对特定决策做出贡献的图像部分的显着性图。
埃尔顿写道,所有这些技术“都有缺陷,并且在如何正确解释解释方面存在混淆”。
Elton 还挑战了另一个关于深度学习的流行信念。许多科学家认为,深度神经网络从其潜在问题域中提取高级特征和规则。这意味着,例如,当您在许多标记图像上训练卷积神经网络时,它将调整其参数以检测它们之间共享的各种特征。
这是真的,这取决于您所说的“功能”。有大量研究表明,神经网络实际上确实可以学习图像和其他数据类型中的重复模式。同时,有大量证据表明深度学习算法无法学习其训练示例的一般特征,这就是为什么它们严格限于其狭窄领域的原因。
“实际上,深度神经网络是‘愚蠢的’——它们似乎在内部捕获的任何规律性都完全是由于提供给它们的数据,而不是一个自我导向的‘规律性提取’过程,”埃尔顿写道。
Elton引用了发表在同行评审科学杂志Neuron上的一篇论文,认为事实上,深度神经网络“通过数据点的插值而不是外推来发挥作用”。
一些研究的重点是开发“可解释的”人工智能模型来取代当前的黑匣子。这些模型使他们的推理逻辑对开发人员可见和透明。在许多情况下,尤其是在深度学习中,将现有模型替换为可解释模型会导致准确性权衡。这将是一个弄巧成拙的目标,因为我们选择更复杂的模型,因为它们首先提供了更高的准确性。
“在处理复杂的现实世界数据(如图像或人类语言)时,尝试将深度神经网络压缩成具有同等精度的更简单的可解释模型通常会失败,”Elton 指出。
你的大脑是一个黑匣子埃尔顿的主要论点之一是采用不同的观点来理解人工智能决策。大多数努力都集中在打破“人工智能黑匣子”,并在非常低的技术层面上弄清楚它是如何工作的。但当谈到人工智能研究的最终目的地——人脑时,我们从未有过这样的保留。
“人脑似乎也是一个过度拟合的‘黑匣子’它执行插值,这意味着我们对大脑功能的理解也需要改变,”他写道。“如果进化选择了一个无法解释的模型(大脑),那么我们预计高级人工智能也属于这种类型。”
这意味着在理解人类决策时,我们很少研究神经元的激活。神经科学有很多研究可以帮助我们更好地理解大脑的运作,但几千年来,我们一直依赖其他机制来解释人类行为。
“有趣的是,虽然人脑是一个‘黑匣子’但我们能够相互信任。这种信任的一部分来自于我们用对我们有意义的术语‘解释’我们的决策的能力,”埃尔顿写道。“至关重要的是,要产生信任,我们必须相信一个人不会故意欺骗,并且他们的口头解释实际上映射到他们大脑中用于做出决定的过程。”
有一天,科学可能使我们能够在神经元激活水平上解释人类的决定。但就目前而言,我们大多数人依赖于对我们的决定和我们必须建立彼此信任的机制的可理解的口头解释。
然而,深度学习的解释侧重于研究激活和参数权重,而不是高级的、可理解的解释。“当我们试图准确解释深度神经网络如何插值的细节时,我们会进一步远离可能被认为与用户相关的内容,”埃尔顿写道。
可自我解释的人工智能
基于人类之间存在的信任和解释模型,埃尔顿呼吁“自我解释人工智能”,它可以像人类一样解释自己的决定。
一个可解释的 AI 会产生两条信息:它的决定和对该决定的解释。
这是之前已经提出和探索过的一个想法。然而,埃尔顿提出的是自我解释的人工智能,它仍然保持其复杂性(例如,具有多层的深度神经网络),并且不会为了可解释性而牺牲其准确性。
在论文中,Elton 提出了如何从神经网络中提取相关的因果信息。虽然细节有点技术性,但该技术的基本作用是从神经网络的层中提取有意义的信息并呈现信息,同时避免虚假的相关性。他的方法建立在其他研究人员开发的当前自我解释人工智能系统的基础上,并验证其神经网络中的解释和预测是否对应。
在他的论文中,Elton 还讨论了指定 AI 算法限制的必要性。神经网络倾向于为它们接收到的任何输入提供输出值。当结果“超出模型的适用范围”时,可自我解释的 AI 模型应该“发出警报”,Elton 说。“适用领域分析可以被视为一种简单的人工智能自我意识形式,一些人认为这是高级人工智能中人工智能安全的重要组成部分。”
可自我解释的 AI 模型应为其输出和解释提供置信度。
适用性和领域分析对于“对于鲁棒性和信任很重要的 AI 系统来说尤其重要,因此如果系统要求他们在适用领域之外工作,系统可以提醒他们的用户,”Elton 总结道。一个明显的例子是医疗保健,其中的错误可能对健康造成无法弥补的损害。但是还有很多其他领域,例如银行、贷款、招聘和刑事司法,我们需要了解人工智能系统的限制和边界。
其中大部分仍然是假设性的,Elton 在实现细节方面提供的很少,但随着可解释的 AI 领域的发展,这是一个很好的方向。