人工智能研究表明多巴胺与强化学习之间存在联系
2022年1月7日整理发布:DeepMind 研究人员最近的一项研究证明,人工智能研究(至少是其中的一部分)正朝着正确的方向发展。
由于神经科学,我们知道人类和动物学习的基本机制之一是奖惩。积极的结果会鼓励我们重复某些任务(做运动、学习考试等),而消极的结果会减少我们重复错误(触摸热炉)。
奖惩机制最著名的是俄罗斯生理学家伊万巴甫洛夫的实验,他训练狗在听到铃声时就期待食物。我们还知道,多巴胺是一种在中脑中产生的神经递质化学物质,在调节大脑的奖赏功能方面发挥着重要作用。
强化学习是人工智能研究的最热门领域之一,大致是根据大脑的奖励/惩罚机制形成的。在 RL 中,AI 代理被设置为探索问题空间并尝试不同的操作。对于它执行的每个动作,代理都会收到一个数字奖励或惩罚。通过大量的反复试验和检查其行为的结果,人工智能代理开发了一个优化的数学模型,以最大化奖励并避免惩罚。(实际上,它有点复杂,涉及处理探索和开发以及其他挑战。)
最近,人工智能研究人员一直专注于分布式强化学习以创建更好的模型。分布式 RL 背后的基本思想是使用多种因素以乐观和悲观的方式预测奖励和惩罚。分布式强化学习在创建对环境变化更具弹性的 AI 代理方面至关重要。
这项由哈佛大学和 DeepMind 联合完成并于上周发表在《自然》杂志 上的新研究发现,小鼠大脑中的特性与分布式强化学习的特性非常相似。AI 研究人员测量了大脑中的多巴胺放电率,以检查生物神经元奖励预测率的差异。
有趣的是,在小鼠的神经系统中发现了人工智能科学家在分布式强化学习模型中编写的相同的乐观和悲观机制。“总而言之,我们发现大脑中的多巴胺神经元每个都被调整到不同程度的悲观或乐观,”DeepMind 的研究人员在人工智能实验室网站上发表的一篇博客文章中写道。“在人工强化学习系统中,这种多样化的调整创造了更丰富的训练信号,大大加快了神经网络的学习速度,我们推测大脑可能出于同样的原因使用它。”
这一发现的特别之处在于,虽然 AI 研究通常从神经科学发现中汲取灵感,但在这种情况下,神经科学研究已经验证了 AI 发现。研究人员写道:“这让我们更加相信人工智能研究正走在正确的轨道上,因为这种算法已经被用于我们所知道的最智能的实体:大脑。”
它还将为神经科学的进一步研究奠定基础,这反过来又将有利于人工智能领域。