单纯的深度强化学习是不够的
2022年1月11日整理发布:TDW-Transport Challenge 正在接受提交。与此同时,该论文的作者已经使用几种已知的强化学习技术测试了环境。他们的研究结果表明,纯强化学习在解决任务和运动规划挑战方面非常差。纯粹的强化学习方法需要 AI 代理从头开始开发其行为,从随机动作开始,逐步完善其策略,以达到指定步数的目标。
根据研究人员的实验,纯强化学习方法在 TDW 测试中几乎没有达到 10% 以上的成功率。
研究人员写道:“我们认为这反映了物理交互的复杂性和我们基准测试的大型探索搜索空间。” “相比之前的点目标导航和语义导航任务,代理只需要导航到场景中的特定坐标或对象,ThreeDWorld Transport 挑战需要代理在环境中移动和改变对象的物理状态(即,任务和运动计划),端到端模型可能会不足。”
当研究人员尝试混合 AI 模型时,将强化学习代理与基于规则的高级规划器相结合,他们看到系统性能得到了显着提升。
“这种环境可用于训练 RL 模型,这些模型无法满足这些类型的任务,并且需要明确的推理和规划能力,”Gan 说。“通过 TDW-Transport Challenge,我们希望证明神经符号混合模型可以改善这个问题并展示出更强大的性能。”
然而,这个问题在很大程度上仍未得到解决,即使是性能最好的混合系统也有大约 50% 的成功率。研究人员写道:“我们提出的任务非常具有挑战性,可以作为一个基准来跟踪实体人工智能在物理现实场景中的进展。”
移动机器人正在成为研究和应用的热门领域。Gan 表示,一些制造和智能工厂已经表示有兴趣将 TDW 环境用于实际应用。看看 TDW 运输挑战赛是否有助于引领该领域的新创新将会很有趣。
“我们希望 TDW-Transport Challenge 能够帮助推进仓库和家庭环境中辅助机器人代理的研究,”Gan 说。