有望在AI和人类之间实现更好的合作

晴天雨水
精选回答

2022年1月11日整理发布:从围棋到星际争霸再到 Dota,人工智能研究人员正在创建可以在复杂游戏中击败人类专家的强化学习系统。但人工智能的更大挑战是创建可以与人类合作而不是与人类竞争的强化学习系统。

在一篇新论文中,DeepMind 的人工智能研究人员提出了一种新技术,可以提高强化学习代理与不同技能水平的人类合作的能力。该技术在年度 NeurIPS 会议上被接受,称为 Fictitious Co-Play (FCP),它不需要人工生成的数据来训练 RL 代理。

在使用解谜游戏 Overcooked 进行测试时,FCP 创建了 RL 代理,该代理在与人类合作时提供了更好的结果并减少了混乱。这些发现可以为人类人工智能系统的未来研究提供重要的方向。

训练强化学习代理

强化学习可以不知疲倦地学习任何具有明确定义的奖励、动作和状态的任务。给定足够的计算能力和时间,RL 代理可以在其环境中玩耍并学习一系列动作或“策略”,从而最大化其奖励。强化学习已被证明在玩游戏时非常有效。

但通常,RL 智能体学习与人类游戏不兼容的策略。当与人类合作时,他们会执行让他们的合作者感到困惑的行为,从而难以在需要共同计划和参与者之间分工的应用程序中使用它们。弥合 AI 与人类游戏玩法之间的差距已成为 AI 社区面临的重要挑战。

研究人员正在寻找创建多功能强化学习代理的方法,这些代理可以适应各种合作伙伴的习惯,包括其他 RL 代理和人类。

为游戏训练 RL 的经典方法是自我对战 (SP),其中代理不断与自己的副本进行对抗。 SP 可以非常有效地快速学习最大化游戏奖励的策略,但由此产生的 RL 模型过拟合了它自己的游戏玩法。与以不同方式训练的球员合作是很糟糕的。

另一种训练方法是人口游戏 (PP),它与具有不同参数和架构的各种合作伙伴一起训练 RL 代理。在竞技游戏中与人类合作方面,PP 代理比自我游戏要好得多。但他们仍然缺乏共同回报设置所需的多样性,在这种情况下,玩家必须一起解决问题,并根据环境的变化协调他们的战术。

另一种方法是行为克隆游戏 (BCP),它使用人类生成的数据来训练 RL 代理。BCP 模型不是从随机探索环境开始,而是根据从人类游戏中收集的数据调整参数。这些代理发展出更接近人类游戏模式的行为。如果数据是从具有不同技能水平和游戏风格的不同用户中收集的,那么代理可以更加灵活地适应队友的行为。因此,它们更有可能与人类玩家兼容。然而,生成人类数据具有挑战性,特别是因为强化学习模型通常需要不人道的游戏玩法才能达到最佳设置。

虚构合作

DeepMind 的新强化学习技术虚构共同游戏 (FCP) 背后的主要思想是创建可以帮助具有不同风格和技能水平的玩家的代理,而无需依赖人工生成的数据。

FCP 培训分两个阶段进行。首先,DeepMind 的研究人员创建了一组自玩 RL 代理。这些代理是独立训练的,并且具有不同的初始条件。因此,它们集中在不同的参数设置上,并创建了一个多样化的 RL 代理池。为了使代理池的技能水平多样化,研究人员在训练过程的不同阶段保存了每个代理的快照。

“最后一个检查点代表一个训练有素的‘熟练’合作伙伴,而早期的检查点代表不太熟练的合作伙伴。值得注意的是,通过每个合作伙伴使用多个检查点,这种额外的技能多样性不会产生额外的培训成本,”研究人员在论文中指出。

在第二阶段,以池中的所有代理作为其伙伴来训练一个新的 RL 模型。这样,新代理必须调整其策略,以便能够与具有不同参数值和技能水平的合作伙伴合作。DeepMind 研究人员写道:“FCP 代理已准备好跟随人类合作伙伴的领导,并学习一系列策略和技能的一般政策。”

测试 FCP

DeepMind 的 AI 研究人员将 FCP 应用于 Overcooked,这是一款解谜游戏,玩家必须在网格世界中移动,与物体互动,并执行一系列步骤来烹饪和送餐。Overcooked 很有趣,因为它的动态非常简单,但同时需要队友之间的协调和分工。

为了测试 FCP,DeepMind 简化了 Overcooked 以包含完整游戏中执行的任务的子集。人工智能研究人员还包括一系列精心挑选的地图,这些地图提出了各种挑战,例如强制协调和狭窄的空间。

研究人员训练了一组 SP、PP、BCP 和 FCP 代理。为了比较他们的表现,他们首先针对三个队友群体测试了每种 RL 代理类型,包括一个基于人类游戏数据训练的 BC 模型、一组经过不同技能水平训练的自我游戏代理,以及代表低技能的随机初始化代理。玩家。他们根据在相同数量的剧集中提供的餐食数量来衡量表现。

他们的研究结果表明,FCP 明显优于所有其他类型的 RL 代理,这表明它可以很好地概括各种技能水平和游戏风格。此外,他们令人惊讶的发现之一是其他训练方法非常脆弱。研究人员写道:“这表明它们可能无法与技术不高的人一起表现良好。”

然后,他们测试了每种类型的 RL 代理在与人类玩家合作时的表现。研究人员对 114 名人类玩家进行了一项在线研究,每人玩 20 场比赛。在每一集中,玩家被放置在一个随机的厨房中,并与其中一个 RL 特工合作,但不知道它是哪种类型。

根据 DeepMind 的实验结果,人类-FCP 双人组的表现优于所有其他类型的 RL 代理。

每两集之后,参与者以 1-5 的等级对他们与 RL 代理的体验进行评分。与其他智能体相比,参与者表现出对 FCP 的明显偏好,他们的反馈表明 FCP 的行为更加连贯、可预测和适应性强。例如,RL 代理似乎知道其队友的行为,并通过在每个烹饪环境中选择特定角色来防止混淆。

另一方面,调查参与者将其他强化学习代理的行为描述为“混乱”且难以适应。

鱼戏断桥边 2023-08-20 11:27:40

相关推荐

中国公认最好吃的七种野果

水果在我们生活中是必不可少的,有很多的人喜欢吃水果,大多都是因为水果中含的果汁非常多,吃起来非常的鲜甜,而且营养价值也非常高。现在小编为大家介绍中国公认最好吃的七种野果,感兴趣的小伙伴不妨一起往下看!中国公认最...
展开详情

糖果为什么会长虫子 糖果应该如何保存

我们都知道,糖果存放的时间长了之后会融化,有的时候甚至还会出现虫子,因此在购买糖果时一定要注意挑选。那么糖果为什么会长虫子?糖果应该如何保存?下面小编带来介绍。糖果为什么会长虫子糖果会长虫子主要是以下三种原因:...
展开详情

成都绿牌照限行吗

根据最新的规定,我们可以看到在成都市,绿牌新能源汽车并不受限行措施限制。随着城市发展和汽车数量的增加,尾气排放已成为日益严重的环境问题。为了改善城市空气质量,成都市不得不采取限行措施。然而,针对绿牌新能源汽车的...
展开详情

苏州限号吗外地车

苏州市对外地车辆进入市区实行了限号措施,这项政策针对的是古城部分区域。除了苏E、苏U号牌的小客车可以自由通行外,其他非苏E、苏U号牌的小客车需要申请姑苏通电子通行证方可进入。为了申请姑苏通电子通行证,您可以登录...
展开详情

重庆限号是怎么限的

首先,重庆限号主要集中在工作日的早高峰和晚高峰时段。具体而言,这段时间从早上7点持续到9点,下午5点至晚上7点半。除了工作日的高峰时段,全天限行也是限号措施的一部分。在一些特定区域,如市区内的主干道和环线,全天...
展开详情

精选推荐更多>

什么是光耀门楣

光耀门楣,汉语词汇,拼音是guāng yào mén méi,意思是做出了让家门荣耀的事情。
出自清代文康《儿女英雄传》:“但是那块匾上的‘名镇江湖’四个字,只好留作个光耀门楣的用处,镌在碑上却不合款。”
用法:联合式;作谓语、宾语;含褒义;形容使家族荣耀。
近义词:光宗耀祖、荣宗耀祖、显祖荣宗。
反义词:奇耻大辱、丧权辱国、卑躬屈膝。
例句:
1、他对儿子抱着光耀门楣的殷厚期望,他可不希望自己的宝贝儿子真的得了抑郁症。
2、如今大汉内外交困,壮士为什么不投军出仕,为自己谋条出路,以光耀门楣、名扬天下呢?

皇帝的新装是几年级的课文

《皇帝的新装》选自人教版七年级上册的第六单元,是丹麦童话大师安徒生的代表作之一。
这篇童话通过一个愚蠢的皇帝被两个骗子愚弄,穿上了一件看不见的——实际上根本不存在的新装举行游行大典的丑剧,深刻地揭露了皇帝昏庸及大小官吏虚伪、奸诈、愚蠢的丑恶本质。褒扬了无私无畏、敢于揭假的天真烂漫的童心。
极度的夸张是借助于作者丰富的想象力完成的。两个骗子所设下的骗局,想象就非常奇特。骗子就怕戳穿他们的骗局,而这两个骗子对皇帝的心思和臣民的心理都琢磨透了,他俩的骗局非常露骨,而且非常毒辣。他们不是搞伪劣产品,而是根本就没有织布,根本就没有衣服。他们有一种“钳口术”,谁要说一句真话,说看不见衣服,就借用专制的皇权,说你“不称职或者愚蠢得不可救药”。于是,大臣随员为了保护自己只得说假话,皇帝为了自己的“尊严”也要说假话,高贵的骑士们、街上和窗口里的老百姓、成百上千的人都在异口同声、自欺欺人地称赞皇帝的“新装”,这是一个强烈的讽刺。

月的部首是丿还是月

“月”是独体字,所以它的偏旁是月。“月”最早见于商代甲骨文,其本义是地球的天然卫星,即月亮。古人根据月亮的盈亏规律创造了“月”这个计时单位,沿用至今。也指形状像月亮的东西、按月出现或完成等义。
“月”的出处:
1、《诗经・小雅・天保》:“如月之恒,如日之升。”
2、《归园田居》:“晨兴理荒秽,带月荷锄归。”
3、《淮南子・天文训》:“水气之精者为月。”
“月”造句:
1、妈妈用上个月的盈余给我买了一件漂亮衣服。
2、随着卫星升空,奔月的神话变成了现实。
3、前些年,他带领大家戴月披星地开山造田,如今他又和群众一起种草植树,想在家里找到他,难啊!
4、小刘学习很用功,日就月将,进步很快。

中国古代历史人物有哪些

中国古代历史人物有孔子、秦始皇、孟子、苏轼、李白等等。
1、孔子:子姓,孔氏,名丘,字仲尼,鲁国陬邑(今山东省曲阜市)人,祖籍宋国栗邑,中国古代伟大的思想家、政治家、教育家,儒家学派创始人、“大成至圣先师”。
2、秦始皇:嬴姓,赵氏,名政(一说名“正”),又称赵政、祖龙,也有吕政一说。秦庄襄王和赵姬之子。中国古代杰出的政治家、战略家、改革家,首次完成中国大一统的政治人物,也是中国第一个称皇帝的君主。
3、孟子:名轲,字子舆,邹国(今山东邹城东南)人。战国时期哲学家、思想家、教育家,是孔子之后、荀子之前的儒家学派的代表人物,与孔子并称“孔孟”。
4、苏轼:字子瞻,一字和仲,号铁冠道人、东坡居士,世称苏东坡、苏仙、坡仙,汉族,眉州眉山(今四川省眉山市)人,祖籍河北栾城,北宋文学家、书法家、美食家、画家,历史治水名人。
5、李白:字太白,号青莲居士,又号“谪仙人”,唐代伟大的浪漫主义诗人,被后人誉为“诗仙”,与杜甫并称为“李杜”,为了与另两位诗人李商隐与杜牧即“小李杜”区别,杜甫与李白又合称“大李杜”。
常见热点问答
热点搜索
1-20
21-40
41-60
61-80
81-100
101-120
121-140
141-160
161-180
181-200
作文大全
1-20
21-40
41-60
61-80
81-100
101-120
121-140
141-160
161-180
181-200