3月3日强化学习与通用人工智能进行比较
后者是一种可以像人类思维一样解决抽象和常识性问题的人工智能。这与事实相去甚远。当前的人工智能混合与人类智能有很大不同,无论多么先进,强化学习都受到明显的限制。
强化学习需要大量的计算资源。这限制了它对拥有这些资源或可以烧钱而不用担心下一轮资金的大型科技公司和研究实验室的使用。
例如,根据DeepMind 的 AlphaStar 博客文章,该公司使用 16 个 Google TPU v3 训练其每个代理 14 天(这只是开发 AI 的几个阶段之一)。按照目前的定价 (8.00 美元/TPU 小时),该公司花费了 43,000 美元来培训每个 AI 代理,而根据论文,至少有 18 个代理,总计 774,000 美元——仅用于培训!(当然,DeepMind 归谷歌所有,这意味着它可能会给公司带来更少的成本。)
OpenAI 的 Dota 2 游戏机器人在 10 个月内每天消耗 800 petaflop 秒。换个角度来看,Nvidia 超级强大的 DGX-2 AI 计算机,售价高达 400,000 美元,给你 2 petaflops。这并不意味着 Open AI Five 的培训成本为(800 / 2 * 400,000 美元),但它仍然可以说明此类项目的价格。
强化学习的另一个问题是,在很多情况下,设计一个合适的奖励函数是非常困难的。在许多现实生活中,人工智能代理必须在不同的奖励和权衡之间找到平衡,在这些情况下,强化学习经常会做出错误的决定,以牺牲主要目标为代价来优化短期奖励。
例如,在下面的示例中,游戏会奖励 AI 到达检查点和收集道具。但人工智能陷入了一个循环,不断累积这些小奖励,却错过了赢得比赛的最终目标。
因此,虽然强化学习不需要收集标记的训练数据,但它需要其他类型的人类主导的努力,例如调整 AI 模型以适当地探索其环境而不是利用本地奖励。
我们离自学、解决一般问题的 AI 模型还很远。但每一项新的创新都让我们更接近。