强化学习受到动物和人类智能行为的启发

缘分天注定
精选回答

2022年1月28日整理发布:强化学习先驱 Richard Sutton 将 RL 描述为“第一个智能计算理论”。RL 智能体通过与其环境交互、权衡其行为的惩罚和奖励以及制定最大化奖励的策略来发展其行为。

RL,以及最近的深度 RL,已被证明在解决复杂问题(例如玩游戏和训练机器人)方面特别有效。并且有理由相信强化学习可以克服当前 ML 系统的限制。

但在此之前,RL 必须克服其自身的一系列挑战,这些挑战限制了其在现实环境中的使用。

“我们可以将现代 RL 研究视为由三个线程组成:(1)在模拟基准测试(例如视频游戏)中获得良好结果;(2) 使用模拟+转移;(3) 在现实世界中运行 RL,”莱文告诉TechTalks。“我相信最终(3)是最重要的事情,因为这是解决我们今天无法解决的问题的最有希望的方法。”

游戏是简单的环境。国际象棋和围棋等棋盘游戏是具有确定性环境的封闭世界。即使是星际争霸和刀塔这样的实时游戏,几乎无限状态的游戏,也比现实世界简单得多。他们的规则不会改变。这就是为什么玩游戏的 AI 系统在现实世界中很少有应用的部分原因。

另一方面,物理模拟器近年来取得了巨大的进步。机器人和自动驾驶汽车等领域的流行方法之一是在模拟环境中训练强化学习模型,然后根据实际经验对模型进行微调。但根据 Levine 的说法,这种方法也很有限,“因为我们最需要学习的领域——人类远远优于机器的领域——也是最难模拟的领域。”

“这种方法仅在解决可以模拟的任务时有效,这是我们创建逼真模拟现实世界的能力以及预测代理人在现实中可能遇到的所有可能情况的能力的瓶颈,”莱文说。

奖励、数据驱动的学习和泛化

“当我们尝试进行现实世界的强化学习时,我们遇到的最大挑战之一就是泛化,”莱文说。

例如,2016 年,Levine 是一个团队的一员,该团队在谷歌构建了一个“手臂农场”,其中 14 个机器人同时从他们的共享经验中学习。该团队收集了超过 50 万次抓取尝试,他们的 RL 模型能够以这种方式学习有效的抓取策略。

“但我们不能对我们希望机器人通过 RL 学习的每一项任务重复这个过程,”他说。“因此,我们需要更通用的方法,其中一个不断增长的数据集被用作对可以建立更具体技能的世界的一般理解的基础。”

在他的论文中,莱文指出了强化学习的两个关键障碍。首先,RL 系统需要手动定义奖励函数或目标,然后才能学习有助于实现这些目标的行为。其次,大多数强化学习系统需要在线经验并且不是数据驱动的,这使得它们很难在现有数据上进行训练。RL 的最新成就依赖于非常富有的科技公司的工程师,他们使用大量的计算资源来生成大量的动作片段,而不是重复使用可用数据。

因此,RL 系统需要能够从过去的经验中学习并以更通用的方式重新利用他们的学习的解决方案。此外,他们应该能够处理现实世界的连续性。与模拟环境不同,您无法重置现实世界并从头开始一切。您需要能够快速适应环境不断变化且不可预测的学习系统。

在他的 NeurIPS 演讲中,Levine 将现实世界的 RL 与 Robinson Crusoe 的故事进行了比较,Robinson Crusoe 被困在一个岛上,并通过创造性和创造力学会处理未知情况,利用他对世界的了解并在他的新生活中继续探索栖息地。

“现实世界中的 RL 系统必须处理终身学习问题,完全基于现实感知评估目标和性能,而无需访问特权信息,并且必须处理现实世界的限制,包括安全性,”莱文说。“这些都是在广泛使用的 RL 基准测试任务和视频游戏环境中通常被抽象出来的东西。”

然而,强化学习确实在更实际的现实世界环境中工作,莱文说。例如,在 2018 年,他和他的同事开发了一种基于 RL 的机器人抓取系统,该系统通过原始感官感知获得了最先进的结果。与选择抓取点然后执行所需抓取的静态学习行为相比,在他们的方法中,机器人会根据最近的观察结果不断更新其抓取策略,以优化长视野抓取成功。

“据我所知,这仍然是现有的从单目 RGB 图像中抓取的最佳系统,”莱文说。“但是这类事情需要的算法与那些在模拟视频游戏设置中表现最好的算法有些不同:它需要善于利用和重用以前收集的数据的算法,可以训练泛化的大型模型的算法,以及可以支持大规模的真实世界数据收集。”

沧海桑田 2023-08-20 11:27:40

相关推荐

显卡的6P供电怎么接

1、首先需要准备显卡电源线,保证质量完好无损,方可进行接下来的操作;2、接着观察电脑的插口有哪些具体样式,是否与自身的电源线接口相匹配;3、接着准备连接,首先找到电源插口上六加二中的六插口,随后插在显卡上,此时...
展开详情

表示队伍整齐的四字词语

1、堂堂之阵:形容阵容盛壮整齐,也用来形容光明正大;2、鳞次栉比:形容房屋或船只等排列得很密很整齐;3、正正之旗:排列整齐的军旗。借喻强盛整肃的军队;4、匪匪翼翼:形容车马行走时阵容整齐、威武;5、井然有序:整...
展开详情

形容高考的成语有哪些

形容高考的成语有:寒窗苦读:在寒冷的窗下苦读:形容读书的艰辛。倒背如流:背:背诵。把书或文章倒过来背,背得像流水一样流畅。形容背得非常熟练,记得非常牢。成语出处:郭沫若《苏联纪行日记六月廿七日》。她把说明小册子...
展开详情

儿子欠债父母有义务还吗

成年子女自己欠下的钱,债权人只能让这个成年子女还,法律上成年子女和父母的财产分的很清楚,不存在连带责任。父母对于成年子女的债务不负偿还义务,除非父母作为继承人,在成年子女死亡后继承死者遗产,就需要承担遗产价值以...
展开详情

青团的绿色是用什么做的

青团的绿色是用一种草头汁做成的绿色糕团。其做法是先将嫩艾、小棘姆草等(做青团用的野菜一般有泥胡菜、艾蒿、鼠曲草三种。泥胡菜氽后色做碧绿,曾常用,现用的已不多见)放入大锅,加入石灰蒸烂,漂去石灰水,揉入糯米粉中,...
展开详情

精选推荐更多>

全部倒装的几种情况

全部倒装的几种情况:
1、完全倒装即把整个谓语放到主语之前(是整个谓语动词,而非助动词)。
2、there引出的完全倒装句:除了最常见的there be句型以外,there还可以接appear、exist等,一般都译成“有”的含义,构成完全倒装句等。
3、由地点和时间副词引出的完全倒装句:以地点副词here、there和时间副词now、then开头,后面的动词是be、come、exist、fall、follow、go、lie、remain、seem、stand(表移动或动态的不及物动词)等,而主语又是名词时,构成完全倒装句。
4、表示运动方向的副词或地点状语置于句首,谓语表示运动的动词且主语是名词时使用完全倒装。
5、在强调状语时,有以下情况:
当句首状语为方位词或拟声词,谓语动词为go、come等表示位置转移的动词时句子须倒装。
当句首状语为表示地点、方向等的介词词组时,句子须倒装。
当句首状语由“only+副词”,“only+介词词组”,“only+状语从句”构成时,句子须倒装。

锱铢必较的锱铢什么意思

“锱铢必较”的锱铢用来比喻极微小的数量。锱铢必较,汉语成语,读音是zī zhū bì jiào,用来形容非常小气,很少的钱也一定要计较;现代多用于形容维护公平权益,做事严谨细致。
出自《荀子·富国》:“割国之锱铢以赂之,则割定而欲无厌。”
近义词:斤斤计较、睚眦必报。
反义词:慷慨仗义、宽大为怀、宽宏大量、虚怀若谷。
用法:主谓式,作谓语、宾语,含褒义,喻严谨。
示例:
明·程登吉《幼学琼林》第三卷:“贤否罹害,如玉石俱焚;贪婪无厌,虽锱铢必较。”
明·凌濛初《二刻拍案惊奇》:“就是族中支派,不论亲疏,但与他财利交关,锱铢必较,一些情面也没有的。”
宋·陈文蔚《朱先生叙述》:“先生造理精微,见于处事,权衡轻重,锱铢必较。”

黄河之水天上来突出了黄河的什么特点

“黄河之水天上来”主要突出了黄河汹涌澎湃的特点,表达了诗人热爱与赞美、歌颂黄河的情感。出自《将进酒·君不见》:“君不见,黄河之水天上来,奔流到海不复回。君不见,高堂明镜悲白发,朝如青丝暮成雪。”
译文:
你可见黄河水从天上流下来,波涛滚滚直奔向大海不回还。
你可见高堂明镜中苍苍白发,早上满头青丝晚上就如白雪。
《将进酒》是唐代大诗人李白沿用乐府古题创作的七言歌行。此诗思想内容非常深沉,艺术表现非常成熟,在同题作品中影响最大。诗人豪饮高歌,借酒消愁,抒发了忧愤深广的人生感慨。诗中交织着失望与自信、悲愤与抗争的情怀,体现出诗人强烈的豪纵狂放的个性。全诗情感饱满,无论喜怒哀乐,其奔涌迸发均如江河流泻,不可遏止,且起伏跌宕,变化剧烈;在手法上多用夸张,且常以巨额数词修饰,既表现出诗人豪迈洒脱的情怀,又使诗作本身显得笔墨酣畅,抒情有力;在结构上大开大阖,张弛有度,充分体现了李白七言歌行的豪放特色。

短除法怎么用

短除法用法是:在除法中写除数的地方写两个数共有的质因数,然后落下两个数被公有质因数整除的商,之后再除,以此类推,直到结果互质为止。短除法是求最大公因数的一种方法。
在用短除法计算公倍数时,对其中任意两个数存在的因数都要算出,其它没有这个因数的数则原样落下。直到剩下每两个都是互质关系。求最大公约数便乘一边,求最小公倍数便乘一圈。
常见热点问答
热点搜索
1-20
21-40
41-60
61-80
81-100
101-120
121-140
141-160
161-180
181-200
作文大全
1-20
21-40
41-60
61-80
81-100
101-120
121-140
141-160
161-180
181-200