其实你的大脑是一个黑匣子
2022年1月18日整理发布:埃尔顿的主要论点之一是采用不同的观点来理解人工智能决策。大多数努力都集中在打破“人工智能黑匣子”,并在非常低的技术层面上弄清楚它是如何工作的。但当谈到人工智能研究的最终目的地——人脑时,我们从未有过这样的保留。
“人脑似乎也是一个过度拟合的‘黑匣子’它执行插值,这意味着我们对大脑功能的理解也需要改变,”他写道。“如果进化选择了一个无法解释的模型(大脑),那么我们预计高级人工智能也属于这种类型。”
这意味着在理解人类决策时,我们很少研究神经元的激活。神经科学有很多研究可以帮助我们更好地理解大脑的运作,但几千年来,我们一直依赖其他机制来解释人类行为。
“有趣的是,虽然人脑是一个‘黑匣子’但我们能够相互信任。这种信任的一部分来自于我们用对我们有意义的术语‘解释’我们的决策的能力,”埃尔顿写道。“至关重要的是,要产生信任,我们必须相信一个人不会故意欺骗,并且他们的口头解释实际上映射到他们大脑中用于做出决定的过程。”
有一天,科学可能使我们能够在神经元激活水平上解释人类的决定。但就目前而言,我们大多数人依赖于对我们的决定和我们必须建立彼此信任的机制的可理解的口头解释。
然而,深度学习的解释侧重于研究激活和参数权重,而不是高级的、可理解的解释。“当我们试图准确解释深度神经网络如何插值的细节时,我们会进一步远离可能被认为与用户相关的内容,”埃尔顿写道。
可自我解释的人工智能
基于人类之间存在的信任和解释模型,埃尔顿呼吁“自我解释人工智能”,它可以像人类一样解释自己的决定。
一个可解释的 AI 会产生两条信息:它的决定和对该决定的解释。
这是之前已经提出和探索过的一个想法。然而,埃尔顿提出的是自我解释的人工智能,它仍然保持其复杂性(例如,具有多层的深度神经网络),并且不会为了可解释性而牺牲其准确性。
在论文中,Elton 提出了如何从神经网络中提取相关的因果信息。虽然细节有点技术性,但该技术的基本作用是从神经网络的层中提取有意义的信息并呈现信息,同时避免虚假的相关性。他的方法建立在其他研究人员开发的当前自我解释人工智能系统的基础上,并验证其神经网络中的解释和预测是否对应。
在他的论文中,Elton 还讨论了指定 AI 算法限制的必要性。神经网络倾向于为它们接收到的任何输入提供输出值。当结果“超出模型的适用范围”时,可自我解释的 AI 模型应该“发出警报”,Elton 说。“适用领域分析可以被视为一种简单的人工智能自我意识形式,一些人认为这是高级人工智能中人工智能安全的重要组成部分。”
可自我解释的 AI 模型应为其输出和解释提供置信度。
适用性和领域分析对于“对于鲁棒性和信任很重要的 AI 系统来说尤其重要,因此如果系统要求他们在适用领域之外工作,系统可以提醒他们的用户,”Elton 总结道。一个明显的例子是医疗保健,其中的错误可能对健康造成无法弥补的损害。但是还有很多其他领域,例如银行、贷款、招聘和刑事司法,我们需要了解人工智能系统的限制和边界。
其中大部分仍然是假设性的,Elton 在实现细节方面提供的很少,但随着可解释的 AI 领域的发展,这是一个很好的方向。