向右滑动:上一篇 向左滑动:下一篇 我知道了
广告

yabo亚博手机--任意三数字加yabo.com直达官网到底要几条腿才能走路?

2018-07-02
导语:四条腿的猎豹yabo亚博手机--任意三数字加yabo.com直达官网,时速堪比博尔特,两条腿的Atlas现在也能跑起来了,那一条腿的yabo亚博手机--任意三数字加yabo.com直达官网能走路吗?迪士尼的yabo亚博手机--任意三数字加yabo.com直达官网告诉我们,不管剩几条腿 (n>0) ,都能学会走路。那么,是怎么学的?

本文经AI新媒体量子位(公众号 ID: QbitAI)授权转载,转载请联系出处

迪士尼的yabo亚博手机--任意三数字加yabo.com直达官网,不管剩几条腿 (n>0) ,都能学会走路。

那么,是怎么学的?

研究团队不用模拟器,直接在硬件上修炼深度强化学习?(DRL) 的策略。

真实世界,或许比模拟器要单调一些。不过,有物理支持的经验,可能更加珍贵。

除了有清新脱俗的训练环境,这只yabo亚博手机--任意三数字加yabo.com直达官网,也并不是一只yabo亚博手机--任意三数字加yabo.com直达官网而已。

想要几条腿,问过yabo亚博手机--任意三数字加yabo.com直达官网吗?

20180702_02_robot02.gif

yabo亚博手机--任意三数字加yabo.com直达官网的腿是模块化的,就是说,你想给它装上一条、两条、三条腿,都可以。

嫌腿太多,拔掉一些也可以。?反正只要有腿,yabo亚博手机--任意三数字加yabo.com直达官网还可以重新学走路。

另外,yabo亚博手机--任意三数字加yabo.com直达官网的腿还分三种,运动方式各不相同——

在分别介绍之前,先给各位一些方向感。

20180702_02_robot03.jpg

A腿,Roll-Pitch,横轴加纵轴。

20180702_02_robot04.gif

B腿,Yaw-Pitch,竖轴加纵轴。

20180702_02_robot05.gif

C腿,Roll-Yaw-Pitch,横轴加竖轴加纵轴。

20180702_02_robot06.gif

于是,C腿比另外两条腿粗壮一些,似乎也可以理解了。

如果按最多能装六条腿来算,一共可以拼出多少种不同的yabo亚博手机--任意三数字加yabo.com直达官网?

这样一来,即便不是模拟器,也算多姿多彩了。

两种DRL同步走

由于,不知道yabo亚博手机--任意三数字加yabo.com直达官网什么时候,就会多条胳膊少条腿,迪士尼团队准备了两种深度强化学习算法。

20180702_02_robot07.gif

一是TRPO?(信赖域策略优化) 算法,沿用既定策略 (On-Policy) 的批量学习方法,适合优化大型非线性的策略。

二是DDPG?(深度确定性策略梯度) 算法,用演员-评论家 (Actor-Critic) ”的方法,优化策略。?

不同的算法,不同的姿势

那么,在三次元学习过程中优化的策略,有多优秀?

按照腿的数量,分别来看一下。

一条腿

20180702_02_robot08.gif

图中下者,是用TRPO学习完毕的A腿,与没有学过的A腿相比,走路姿势已经明显不同,速度也真的加快了一点点。

两条腿

20180702_02_robot09.gif

这是两条B腿在TRPO熏陶之下形成的姿势,轻快地触地,轻快地弹起。

20180702_02_robot10.gif

这同样是两条B腿,但算法换成了DDPG,姿势又完全不同了,好像慵懒地向前翻滚。

三条腿

20180702_02_robot11.gif

这次,yabo亚博手机--任意三数字加yabo.com直达官网长了三条B腿。有了TRPO的加成,它用欢脱地节奏点着地,和双腿TRPO的操作很相似。

总体看上去,用TRPO训练过后,yabo亚博手机--任意三数字加yabo.com直达官网会比较活跃,用DDPG修炼之后,yabo亚博手机--任意三数字加yabo.com直达官网就有了佛系属性。

不管它有怎样的个性,研究人员都很开心。毕竟,那表示深度强化学习算法,是有效的。一看就知道,是谁带出的徒弟。
本文为yabo亚博手机--任意三数字加yabo.com直达官网网原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。

您可能感兴趣的文章

相关推荐

广告
推荐使用浏览器内置分享