小金体育平台-强化学习机器人也有很强环境适应能力,伯克利AI实验室赋能元训练+在线自适应

发布时间:2021-08-14  栏目:互联网  评论:小金体育平台-强化学习机器人也有很强环境适应能力,伯克利AI实验室赋能元训练+在线自适应已关闭评论

本文摘要:图1【图像来源:BERKELEYBAIR所有者:BERKELEYBAIR(公共编号:)按:在现实生活中,人类只能适应环境的变化,但机器人在适应性方面表现得很普遍,如何使机器人像人一样慢慢适应环境加利福尼亚大学伯克利分校人工智能实验室,BAIR最近说明了自己研究环境适应能力高的机器人的最近成果,全文编译器如下。

图1【图像来源:BERKELEYBAIR所有者:BERKELEYBAIR(公共编号:)按:在现实生活中,人类只能适应环境的变化,但机器人在适应性方面表现得很普遍,如何使机器人像人一样慢慢适应环境加利福尼亚大学伯克利分校人工智能实验室,BAIR最近说明了自己研究环境适应能力高的机器人的最近成果,全文编译器如下。人类需要无缝适应环境的变化:大人需要在几秒钟内学会拐杖走路的人们不需要在瞬间捡到意外的轻物体的新学习走路,孩子也需要慢慢适应环境从平地到上坡的变化。

这种适应能力在现实世界中发挥着最重要的作用。另一方面,机器人一般配置了同样的不道德(代码和自学都没有),在特定的环境很好,但在其他方面系统故障、遇到陌生地区、遇到环境变化(例如风)、有效的负荷和其他意想不到的变化BAIR最近研究的想法是,在现阶段,预测和仔细观察之间的不确定性应该告诉机器人,改版模型,更准确地说明现状。

举个例子,当我们意识到我们的车在路上爆胎时(如图2),我们的不道德经常会产生意外的影响,所以我们会适当地规划我们以前的行动。为了使机器人更好地适应环境现实世界,利用过去的经验,享受缓慢灵活的适应环境的能力是最重要的。

因此,BAIR开发了基于模型的慢适应元增强自学算法。图2【图像来源:BERKELEYBAIR的所有者:BERKELEYBAIR慢慢适应环境以前的工作作用是适应环境的方法(Cullyetal.2015)和权利模型的元增强自学方法(Wangetal.2016;Finnnetal.,2017)通过训练,智能体适应环境。

但BAIR研究者的工作是充分发挥适应能力。人类的适应环境不需要在新的设定下体验几次。

这个适应环境在线再次发生,只有几个时间的步骤(即毫秒),太快无法注意。基于模型自学设置适应环境元自学(以下不讨论),BAIR研究者构筑了这种慢慢适应环境。

作为改版模型使用的数据必须根据模型设定,而不是根据推算中获得的报酬进行调整,根据最近的经验,这些数据以模型预测错误的形式在每个时间阶段发挥作用。这种基于模型的方法需要机器人利用只有少量最近的数据,有意图改版模型。方法说明图3【图像来源:BERKELEYBAIR所有者:BERKELEYBAIR】BAIR研究者的方法遵循图3中的普遍公式,利用最近的数据仔细观察适应模型,与适应控制的整体框架相似。

但是,确实的挑战是,模型简单、非线性、高容量的函数接近者(神经网络等)时,模型应该如何顺利适应。为了开展有意义的自学,神经网络需要大量的数据,所以在模式权重上实施SGD是违宪的。因此,通过在(元)训练时间中具体按照这个适应环境的目标进行训练,测试时需要慢慢适应。在各种设置的数据中展开元训练,在获得擅自适应的先验模型(权重用俄罗斯应对)后,该机器人需要在各时间阶段(图3)根据该分钟适应环境,将先验模型与现在的经验相结合,将其模型调整到适当的现状元训练:等价给定时间的步骤t,我们处于st阶段,我们在at时采取措施,根据基础动力学函数st1=f(st,at),我们最后得到st1的结果。

对我们来说,现实的动向是不知道的,所以我们反而想数值自学的动力学模型s^t1=fè(st,at),通过观察表单(st,at,st1)的数据点,尽量做出良好的预测。为了继续不道德的自由选择,规划者需要利用这个评价的动态模型。假设在第一次展示过程中,任何细节和设置都需要在任何时间阶段再次发生变化,我们将继续相似的时间阶段视为近况的任务细节:在任何空间状态下运营、持续障碍、尝试新的目标/报酬、体验系故障等。

因此,为了模型需要在计划中成为最简单的模型,BAIR研究者想利用最近仔细观察的数据进行首次改版。在训练时间(图4)中,这个总和可以自由选择倒数(M小K)数据点的序列,用于第一个m改版模型的权重,从宪法变成,优化新的,擅长切换下一个k时间的步骤预测状态。利用过去k点的信息调整权重后,这个新说明的损失函数表示将来k点的预测误差。

【照片来源:BERKELEYBAIR的所有者:BERKELEYBAIR的所有者】换句话说,没有必要做出良好的动态预测。无视,必须用于具体任务的数据点,将自己慢慢适应环境到新的权重中,依靠这个新的权重取得良好的动态预测结果。

关于这个公式的更直观的信息,请参阅MAMLblogpost。图4【图像来源:BERKELEYBAIR所有者:BERKELEYBAIR模拟实验BAIR研究者在模拟机器人系统中展开实验,测试他们的方法在环境中适应环境瞬间变化的能力,除了训练环境之外,这种方法是否也需要普通化。值得注意的是,BAIR研究人员对所有智能体展开任务/环境产生的元训练(参照本文),研究人员在测试中评价了不知道的环境适应能力和大变化。

图5猎豹机器人在随机浮动力不同的浮动板上训练,在水中对浮动力不同的浮动板进行测试。这种环境指出,不仅要适应环境,还要慢/在线适应环境。图6通过不同腿部障碍的蚂蚁机器人进行实验,指出了在线适应环境的必要性,但是第一次展示时,看不见的脚中途再次发生故障。

在以下定性结果中,BAIR研究人员将基于梯度的适应环境学习者(GrBAL)和基于标准模型的学习者(MB)展开比较,这个基于模型的学习者在一定程度的训练任务发生了变化,但是没有具体的适应环境机制进行训练。图5【图像来源:BERKELEYBAIR所有者:BERKELEYBAIR】图6【图像来源:BERKELEYBAIR所有者:BERKELEYBAIR这种基于模型的元增强自学方法的缓慢适应能力,使该模拟机器人系统在显示和/或样本效率方面比以前最差的方法明显提高,在这种方法的对照实验中,在线适应环境比没有在线适应环境这些定量比较的下面可以看论文。硬件实验图7①【图像来源:BERKELEYBAIR所有者:BERKELEYBAIR】图7②【图像来源:BERKELEYBAIR所有者:BERKELEYBAIR所有者】不仅要特别强调元提高自学方法的样本效率,还要特别强调现实世界中缓慢适应环境的重要性该小型6脚机器人以高度随机和动态运动的形式,展示了建模和控制的挑战。该机器人是优秀的在线适应环境候选人,结构该机器人用于慢生产技术和多个定制设计步骤,不可能每次复制完全相同的动力学,连杆机构和其他身体部分不会随着时间的推移而发展,移动速度非常慢,不会随着地形的变化而发生动态变化。

BAIR的研究人员们在各种地形上训练了这个步行机器人,测试了这个智能体在线适应环境的新任务(运营时)的自学能力。另外,一条腿的直线任务减少,从未见过的湿滑地形和斜坡,位置估计有校正错误和误差,首次承担机车的负荷。在硬件实验中,BAIR的研究人员比较了他们的方法和两种方法。

1、基于标准的模型自学(MB)的方法,该方法既不适应也不自学2、具有适应环境需求力的动态评价模型(MB到DE),其适应力是非元自学获得的先验。结果(图8-10)指出,不仅要适应能力,还要从显式元自学获得的先驱开展适应环境。

图8【图像来源:BERKELEYBAIR所有者:BERKELEYBAIR】图9【图像来源:BERKEYBAIR所有者:BERKELEYBAIR】图10【图像来源:BERKELEYBAIR所有者:BERKELEYBAIR所有者:BERKELEYBAIR所有者:BERKERKELEYBAIR值得注意的是,这些任务/环境和元培训阶段自学的运动不道德有足够的共性,从以前的科学知识(不是从零开始自学)中提取信息很简单,但他们的差异相当大,必须有效地在线适应环境。图11【图像来源:BERKELEYBAIR所有者:BERKELEYBAIR所有者】将来的方向通过元自学,这项工作需要高容量神经网的动态模型在线适应环境。

从以前的元自学开始,通过对模式的局部微调,BAIR研究人员避免了对精准全球模式的市场需求,而且需要慢慢适应环境到新的场景,如预期的环境变化。BAIR研究者显示了模拟和硬件在不同任务中适应环境的结果,但还没有很多改良途径。首先,这个设定很强,总是从早期训练的先驱开始微调,但是这个方法多次看到这个新设定也不会得到第一次看到的某种程度的表现。

在以前的工作中,BAIR研究者采取措施,在随着时间的推移正确解决问题相当严重的问题的同时,不要因为测试了新技能而记住原来的技能。另一个提高领域包括制定条件和分析性能和适应环境的允许:考虑到以前包含的科学知识,需要适应环境的是什么?什么是不需要适应环境的?举个例子,两个人学骑自行车,谁不会突然在路面上减速?假设两个人以前没有骑过自行车,所以他们也不可能从自行车上摔下来。在这个实验中,第一个人a可能摔倒,手腕受伤,然后必须进行几个月的物理化疗。无视,另一个b有可能结合他以前学过的武术科学知识,继续执行比较好的摔倒程序(也就是说,摔倒的时候掉下背来缓冲器,不是用胳膊弱化上升的力量)。

这就是一个例子,当两个人都尝试继续执行新任务时,他们以前的科学知识中的其他经验不会明显影响他们适应环境尝试的结果。因此,在现有的科学知识下,有机制解读适应环境的限制,应该不太有趣。原始论文地址:https://arxiv.org/abs/1803.11347(ICLR2019接管)项目主页:https://sites.google.com/berkeley.edu/metadaptivecontrol代码开源地址:htttps://github.com/iclarkerkeley.edu/learkerkeleleley.ey.edub.erkery.eduberarkerkery.ery.edub.edus.erom/lerkerkerkerkerkerng_tongtontotongt:本文本编辑:BER版权文本:禁止出版。

下一篇文章发表了注意事项。

本文关键词:小金体育平台,小金体育官网

本文来源:小金体育平台-www.sc297.com

相关文章

Comments are closed.

网站地图xml地图