乱序分布是深度学习未来的关键

带刺的玫瑰

精选回答

当前的机器学习系统基于独立同分布 (IID) 数据的假设。基本上，机器学习算法在训练和测试数据分布均匀时表现最佳。这是一个假设，可以在简单的框架中很好地工作，例如掷硬币和掷骰子。

但现实世界是混乱的，分布几乎从来都不是统一的。这就是为什么机器学习工程师通常会收集尽可能多的数据，将它们打乱以确保它们的均衡分布，然后将它们拆分到训练集和测试集之间。

“当我们这样做时，我们破坏了我们收集的数据中固有的分布变化的重要信息，”Bengio 说。“与其销毁这些信息，我们应该使用它来了解世界是如何变化的。”

智能系统应该能够泛化到数据中的不同分布，就像人类孩子学会随着他们的身体和周围环境的变化而适应自己。“我们需要能够处理这些变化并进行持续学习、终身学习等的系统，”Bengio 在他的 NeurIPS 演讲中说。“这是机器学习的一个长期目标，但我们尚未为此建立解决方案。”

深度学习中的注意力和组合性

帮助 AI 系统更一致地运行的概念之一是它们如何分解数据并找到重要的位。该领域已经完成了一些工作，Bengio 本人参与了其中的一些工作。

该领域的一项关键工作是“注意力机制”，这是一种使神经网络能够专注于相关信息位的技术。注意力机制在自然语言处理 (NLP) 中变得非常重要，自然语言处理是处理机器翻译和问答等任务的人工智能分支。

但是目前的神经网络结构大多基于向量计算来执行注意力。数据以定义其特征的数值数组的形式表示。下一步是使神经网络能够基于名称-值对执行注意力和表示，类似于基于规则的程序中使用的变量。但它应该以深度学习友好的方式完成。

迁移学习领域已经取得了很大进展，这是将一个神经网络的参数映射到另一个神经网络的学科。但是更好的组合性可以导致深度学习系统可以提取和操作其问题域中的高级特征，并动态地使它们适应新环境，而无需额外的调整和大量数据。高效的组合是朝着无序分布迈出的重要一步。

具有因果结构的深度学习系统

众所周知，因果关系是当前机器学习系统的主要缺点之一，其中心是在数据中查找和匹配模式。Bengio 认为，拥有可以组合和操纵这些命名对象和语义变量的深度学习系统将有助于将我们推向具有因果结构的 AI 系统。

“为了促进因果结构的学习，学习者应该尝试推断出干预是什么，对哪个变量进行了改变。这是我们一直在做的事情，”他在 NeurIPS 的演讲中说道。

整个演讲包含了很多关于意识、语言在智能中的作用以及神经科学与机器学习的交叉等主题的非常有价值的信息。不幸的是，所有这些都无法在一个帖子中涵盖和解开。我建议观看整个视频(两次)。

Bengio 是众多试图将人工智能领域从预测和模式匹配转向像人类一样思考的机器的科学家之一。看看这些努力如何演变和融合将会很有趣。

雪后寻梅 2023-08-20 11:27:41