当前位置: 首页 >互联网 > 内容

谷歌人工智能通过观察狗教会机器人如何移动

互联网
导读 根据本周发布的一篇预印稿和一篇博客文章,谷歌研究人员开发了一种人工智能系统,可以模仿动物的动作,并赋予机器人更大的灵活性。两位作者...
2022-06-08 14:16:33

根据本周发布的一篇预印稿和一篇博客文章,谷歌研究人员开发了一种人工智能系统,可以模仿动物的动作,并赋予机器人更大的灵活性。两位作者认为,他们的方法可以促进机器人的发展,使它们能够完成现实世界的任务,例如在多层仓库和配送中心之间运输材料。

团队的框架采用动物(这里是狗)的动作捕捉片段,并使用强化学习(reinforcement learning)——,一种奖励和激励软件代理完成目标的训练技术3354,来训练控制策略。研究人员表示,向系统提供不同的参考动作,将允许研究人员“教”Unitree Laikago四足机器人完成一系列动作,从快走(高达每小时2.6英里)到跳跃和转弯。

为了验证他们的方法,研究人员首先收集了一组真实狗的各种技能数据。(训练主要在物理模拟中进行,这样可以紧密跟踪参考运动的姿态。然后,通过在奖励函数(描述演员应该如何表现)中使用不同的动作,研究人员使用大约2亿个样本来训练一个模拟机器人模仿动作技能。

但是模拟器通常只能提供真实世界的粗略近似。为了解决这个问题,研究人员采用了一种自适应技术来随机化模拟中的动力学,例如,改变机器人的质量和摩擦力等物理量。这些值用编码器映射成数字表示。代码3354作为机器人控制策略的输入被传递。当该策略被部署到一个真实的机器人上时,研究人员删除了编码器,直接搜索一组让机器人成功执行技能的变量。

该团队表示,他们能够在不到8分钟的时间内,使用真实数据,在大约50次试验中使政策适应现实世界。此外,他们还演示了现实世界中的机器人学习模仿狗的各种动作,包括踱步和小跑,以及艺术家动画的关键帧动作,如动态跳跃和转弯。

“我们证明了一种基于学习的方法可以通过使用参考运动数据来自动合成控制器,并且它适用于多种腿部机器人行为,”论文的合著者写道。“通过将示例高效域适应技术纳入训练过程,我们的系统可以在模拟中学习适应策略,然后快速适应真实部署。”

控制策略不完善。——由于算法和硬件的限制,它无法学习高度动态的行为,如大跳跃和奔跑,也不如最好的手动设计的控制器稳定。(在每种方法总共15次试验中的5次试验中,现实世界中的机器人在踱步时平均6秒后摔倒;向后小跑5秒后;旋转9秒;以及10秒钟的跳跃。)研究人员还需要进一步提高控制器的鲁棒性,并开发一个可以从视频剪辑等其他体育数据源中学习的框架。

版权声明:转载此文是出于传递更多信息之目的。若有来源标注错误或侵犯了您的合法权益,请作者持权属证明与本网联系,我们将及时更正、删除,谢谢您的支持与理解。