深度强化学习帮助我们掌握复杂性
深度强化学习——机器通过测试其行为的后果来学习——是人工智能最有前途和影响力的领域之一。它将深度神经网络与强化学习相结合,可以一起训练以通过多个步骤实现目标。它是自动驾驶汽车和工业机器人的重要组成部分,它们必须安全、准时地在复杂的环境中航行。
大多数机器学习算法擅长感知任务,这些任务需要一个人在一秒钟内完成,例如识别声音或面部。但是深度强化学习可以学习战术动作序列,例如赢得棋盘游戏或交付包裹。
这些战术序列更接近我们认为的实际智能行为。如果我们说某人很聪明,我们很少指他们可以识别面孔。我们通常的意思是他们知道如何实现目标。Covariant 和 Ambi Robotics 等初创公司正在使用强化学习来控制机械臂,而特斯拉等汽车制造商则使用它来帮助驾驶车辆。
复杂的转向系统
令人印象深刻的是,强化学习可以做的不仅仅是控制单个机器。它可以指挥整个机器管弦乐队、引导复杂系统提高性能、路由车队并协调机器人团队。
复杂性理论描述了具有许多互锁部分的不断变化的系统,这些部分会根据输入的微小变化产生令人惊讶的结果(想想飓风中的蝴蝶效应)。在那个理论中,有一种叫做紧急行为的东西。当系统中的许多小组件将自己组织成更大的、更大规模的可感知模式时,行为就会出现。飓风、蚁群和鸟群都是小单位自我组织成更强大的东西的很好的例子。
通过深度强化学习,机器人和自动驾驶汽车在更大的复杂系统(例如交通或全球供应链)中表现出紧急行为。也就是说,这些机器开始表现得像团队一样,即使它们从未被明确指示这样做。通过培训,他们了解到团队合作会带来更好的结果。在工厂中,这可能意味着一个 AGV 机器人会牺牲自己的速度,以便让更高优先级的有效载荷通过,从而提高系统的整体吞吐量。
在很长一段时间内,复杂性理论是一种思考起来很有趣但很难采取行动的东西。深度强化学习使复杂性理论具有可操作性,因为它允许我们创建和引导紧急行为。它使我们能够应对过于庞大而人类无法完全理解的系统。深度强化学习之于复杂性就像基因工程之于进化:杠杆和加速。
人类似乎需要一点杠杆和加速。事件的匆忙使得我们生活的复杂系统似乎正在失控。深度强化学习让我们重新掌握其中的一些。
处理外部冲击和可变数据
大多数决策系统都会遇到数据意外变化的问题。他们接受过在某些情况下做出决定的训练,当发生不可预见的事情时,他们会崩溃。它们很脆。深度强化学习可以以可概括的方式响应可变数据和不可预见的事件。这样做的一个原因是,在模拟中,您可以针对以前从未发生过且历史数据中不存在的事件对其进行训练。仿真有助于制造业将自主机器人和车辆从测试带入现实场景。
强化学习适应现在发生的事情,并且可以快速更新其对运行环境的期望和理解。这意味着人工智能驱动的优化和决策可以应用于许多以前无法解决的新问题。这意味着我们将能够让我们的机器变得更智能,而在此之前,我们依赖于脆弱的规则和直觉。