为什么将深度学习人性化是错误的
但是,尽管 AlphaZero 有许多奇迹,但它无法与人类的思维相提并论。它的游戏玩法没有任何直观,美丽和浪漫的东西。正如 AI 专家和风险投资家 Kai-Fu 在其广受好评的《AI Superpowers》一书中所解释的那样,“随着机器学习的所有进步,事实仍然是,我们距离创造出能够感受任何情绪的 AI 机器还差得很远。
你能想象在你毕生致力于掌握的游戏中击败世界冠军时的兴高采烈吗?AlphaGo 就是这么做的,但它对自己的成功并不感到高兴,并没有从获胜中获得快乐,并且在获胜后也不想拥抱所爱的人。”
AlphaZero 也确实“掌握了国际象棋的原理”,但与人类大师不同。
棋盘游戏人工智能通常有两个组成部分:价值函数和树搜索算法。价值函数帮助人工智能评估棋盘上的某种安排会导致每个玩家获胜的可能性。树搜索算法可帮助 AI 以最佳方式导航可能的移动集及其相关值。
Stockfish 是 AlphaZero 之前最强的下棋算法,它更接近人类玩家已知的游戏原理。程序员用人类专家已知的下棋原则和策略精心硬编码了它的价值函数。
相比之下,AlphaZero 使用神经网络来开发其价值函数。这意味着它检查了数百万个棋盘状态和结果,并开发了一个数学函数,该函数可以根据与之前看到的其他示例的相似性为新棋盘排列分配值。
AlphaZero 还使用强化学习,这意味着它不需要人工操作员的输入或培训。它多次与自己对战,从随机移动开始,并在尝试不同序列时逐渐更新其价值函数。虽然强化学习是深度学习的一个非常令人兴奋和先进的子集,但它仍有许多障碍需要克服。当任其自行其是时,神经网络可能会卡住或发展出非理性行为。
在下面的示例中,一个玩 CoastRunners 的神经网络认为,绕圈跑和击中物体比坚持路线并尝试完成游戏更有意义。
AlphaZero 的独创性在于它的创造者设法开发了一些技巧,帮助它通过自我游戏而不会卡住。但同样,这不是魔法。这是对神经网络和蒙特卡罗树搜索的正确调整。AlphaZero 并不欣赏它的胜利。它不像人类那样使用战术。它没有游戏的心理模型。它不是试图读懂对手的想法。它只是优化以产生某种类型的结果,在这种情况下,这是一个成功的举措。
我们不要忘记,棋盘游戏几乎与神经网络和深度学习算法涉足的其他一些领域一样复杂。在棋盘游戏中,玩家对整个环境有充分的了解,他们轮流走棋。这是国际象棋、将棋和围棋之间的共同点,这三款游戏 AlphaZero 都掌握了。基本上,您可以在不同游戏的棋盘状态图片上训练相同的网络并获得可接受的结果。
其他应用深度学习的领域则不然,例如自动驾驶汽车 ,甚至其他 AI 算法正在探索的游戏, 例如扑克或实时战略视频游戏。
这并不意味着 AlphaZero 或其他深度学习和神经网络的应用以及其他人工智能创新将被低估和贬值。它们是我们这个时代最重要和最强大的发展之一。
但这并不意味着我们应该开始将深度学习人性化并得出错误的结论。在文章的结尾,Strogratz 建议 AlphaZero 可能会演变为“更通用的问题解决算法”。AlphaZero 是一个统计野兽,它可以掌握棋盘游戏,因为它们可以用统计术语很好地表示。
AlphaZero 可能有通用的棋盘游戏,但解决通用问题需要常识和抽象思维,这些特征仍然是人类思维所独有的。人工智能领域的主要声音认为,我们离创造“通用人工智能”还差得很远,即可以与人类智力和思维能力相匹敌的计算机。
再说一次,当你用适用于人类的术语来描述深度学习神经网络时,很容易认为它们很快就能解决任何可能的问题。