强化学习受到动物和人类智能行为的启发
2022年1月28日整理发布:强化学习先驱 Richard Sutton 将 RL 描述为“第一个智能计算理论”。RL 智能体通过与其环境交互、权衡其行为的惩罚和奖励以及制定最大化奖励的策略来发展其行为。
RL,以及最近的深度 RL,已被证明在解决复杂问题(例如玩游戏和训练机器人)方面特别有效。并且有理由相信强化学习可以克服当前 ML 系统的限制。
但在此之前,RL 必须克服其自身的一系列挑战,这些挑战限制了其在现实环境中的使用。
“我们可以将现代 RL 研究视为由三个线程组成:(1)在模拟基准测试(例如视频游戏)中获得良好结果;(2) 使用模拟+转移;(3) 在现实世界中运行 RL,”莱文告诉TechTalks。“我相信最终(3)是最重要的事情,因为这是解决我们今天无法解决的问题的最有希望的方法。”
游戏是简单的环境。国际象棋和围棋等棋盘游戏是具有确定性环境的封闭世界。即使是星际争霸和刀塔这样的实时游戏,几乎无限状态的游戏,也比现实世界简单得多。他们的规则不会改变。这就是为什么玩游戏的 AI 系统在现实世界中很少有应用的部分原因。
另一方面,物理模拟器近年来取得了巨大的进步。机器人和自动驾驶汽车等领域的流行方法之一是在模拟环境中训练强化学习模型,然后根据实际经验对模型进行微调。但根据 Levine 的说法,这种方法也很有限,“因为我们最需要学习的领域——人类远远优于机器的领域——也是最难模拟的领域。”
“这种方法仅在解决可以模拟的任务时有效,这是我们创建逼真模拟现实世界的能力以及预测代理人在现实中可能遇到的所有可能情况的能力的瓶颈,”莱文说。
奖励、数据驱动的学习和泛化
“当我们尝试进行现实世界的强化学习时,我们遇到的最大挑战之一就是泛化,”莱文说。
例如,2016 年,Levine 是一个团队的一员,该团队在谷歌构建了一个“手臂农场”,其中 14 个机器人同时从他们的共享经验中学习。该团队收集了超过 50 万次抓取尝试,他们的 RL 模型能够以这种方式学习有效的抓取策略。
“但我们不能对我们希望机器人通过 RL 学习的每一项任务重复这个过程,”他说。“因此,我们需要更通用的方法,其中一个不断增长的数据集被用作对可以建立更具体技能的世界的一般理解的基础。”
在他的论文中,莱文指出了强化学习的两个关键障碍。首先,RL 系统需要手动定义奖励函数或目标,然后才能学习有助于实现这些目标的行为。其次,大多数强化学习系统需要在线经验并且不是数据驱动的,这使得它们很难在现有数据上进行训练。RL 的最新成就依赖于非常富有的科技公司的工程师,他们使用大量的计算资源来生成大量的动作片段,而不是重复使用可用数据。
因此,RL 系统需要能够从过去的经验中学习并以更通用的方式重新利用他们的学习的解决方案。此外,他们应该能够处理现实世界的连续性。与模拟环境不同,您无法重置现实世界并从头开始一切。您需要能够快速适应环境不断变化且不可预测的学习系统。
在他的 NeurIPS 演讲中,Levine 将现实世界的 RL 与 Robinson Crusoe 的故事进行了比较,Robinson Crusoe 被困在一个岛上,并通过创造性和创造力学会处理未知情况,利用他对世界的了解并在他的新生活中继续探索栖息地。
“现实世界中的 RL 系统必须处理终身学习问题,完全基于现实感知评估目标和性能,而无需访问特权信息,并且必须处理现实世界的限制,包括安全性,”莱文说。“这些都是在广泛使用的 RL 基准测试任务和视频游戏环境中通常被抽象出来的东西。”
然而,强化学习确实在更实际的现实世界环境中工作,莱文说。例如,在 2018 年,他和他的同事开发了一种基于 RL 的机器人抓取系统,该系统通过原始感官感知获得了最先进的结果。与选择抓取点然后执行所需抓取的静态学习行为相比,在他们的方法中,机器人会根据最近的观察结果不断更新其抓取策略,以优化长视野抓取成功。
“据我所知,这仍然是现有的从单目 RGB 图像中抓取的最佳系统,”莱文说。“但是这类事情需要的算法与那些在模拟视频游戏设置中表现最好的算法有些不同:它需要善于利用和重用以前收集的数据的算法,可以训练泛化的大型模型的算法,以及可以支持大规模的真实世界数据收集。”