Levine 的强化学习解决方案包括两个关键组件
2022年1月28日整理发布:无监督/自监督学习和离线学习。在他的论文中,Levine 将自我监督强化学习描述为一个系统,它可以“学习以有意义的方式控制世界的行为”,并提供一些“学习以尽可能多的方式控制 [世界] 的机制”。
基本上,这意味着 RL 代理应该能够通过计算反事实、学习因果模型以及深入了解动作如何长期影响其环境来实现许多不同的目标,而不是针对单个目标进行优化。这将有助于更快地实现新目标或下游任务。
然而,创建可以解决各种目标的自我监督 RL 模型仍然需要大量的经验。为了应对这一挑战,Levine 提出了离线强化学习,这使得模型可以继续从之前收集的数据中学习,而无需继续在线体验。
“即使在在线收集不可行的环境中,离线 RL 也可以应用自监督或无监督 RL 方法,并且这些方法可以作为将大型和多样化数据集整合到自监督 RL 中的最强大工具之一,”他写。
自我监督和离线 RL 的结合可以帮助开发代理,这些代理可以为学习新任务创建构建块,并在几乎不需要新数据的情况下继续学习。
这与我们在现实世界中的学习方式非常相似。例如,当您想学习篮球时,您从过去获得的基本技能开始,例如步行、跑步、跳跃、处理物体等。您使用这些能力来开发新的技能,例如运球、交叉、跳投、罚球、上篮、直传和弹跳传球、欧式步法、扣篮(如果你足够高的话)等。这些技能相互补充,帮助你达到更大的目标,即超越对手。同时,您可以通过反思您过去的经验并考虑反事实(例如,如果您将球传给开放的队友而不是进行有争议的投篮会发生什么),从而从离线数据中学习。您还可以通过处理其他数据来学习,例如您自己和对手的视频。实际上。
在 一篇论文中,Levine 的一位同事 Yevgen Chetobar 展示了自我监督的离线 RL 如何学习相当通用的机器人操作技能的策略,直接重用他们为另一个项目收集的数据。
“该系统能够达到各种用户指定的目标,并且还可以作为通用预训练程序(一种'机器人技术的 BERT'),用于传统奖励功能指定的其他类型的任务,”莱文说。
没有更多的模拟
离线和自我监督 RL 的一大好处是从真实世界的数据而不是模拟环境中学习。
“基本上,归结为一个问题:创造大脑更容易,还是创造宇宙更容易?我认为创造大脑更容易,因为它是宇宙的一部分,”他说。
事实上,这是工程师在创建模拟环境时面临的巨大挑战之一。例如,Levine 说,自动驾驶的有效模拟需要模拟其他驾驶员,“这需要有一个自动驾驶系统,这需要模拟其他驾驶员,这需要有一个自动驾驶系统,等等。”
“最终,从真实数据中学习会更有效,因为它更容易且更具可扩展性,就像我们在计算机视觉和 NLP 的监督学习领域看到的那样,没有人担心使用模拟,”他说。“我的观点是,我们应该弄清楚如何使用真实数据以可扩展和通用的方式进行 RL,这将使我们不必花费过多的精力来构建模拟器。”