人类沦为工具人!斯坦福机器人“吸星”:从演示中转移技能400美元打破训练数据悖论
时间: 2024-06-09 05:48:26 | 作者: 配件及其他
小哥拿上机械手做示范,机器人就能从收集到的数据中学会刷碗,并且能随机应变。
整套系统从硬件到代码完全开源,成本只需400美元,就可以在没有机器人的情况下收集训练机器人所需数据。
对此,一作黄文龙表示:惊人的工作,破解了机器人数据收集中的先有鸡先有蛋难题。
实际上,都是来自斯坦福大学的两个团队,已经在实验室里带着各自的机器人对练碰拳、握手了。
左右手各一个300美元的Go Pro摄像头,搭配一面镜子就能得到隐式立体信息,非常大地节省成本和重量。
除刷碗之外,还展示了叠衣服、摆放餐具和抛物投篮,都是学习了人类演示后,机器人全自主行动无遥控,1倍速播放。
斯坦福的这项研究名为通用操作接口(UMI),是一种数据收集和策略学习框架,允许将技能从人类演示直接转移到可部署的机器人策略。
上面搭载的GoPro运动相机,是唯一的传感器和记录设备,这种设计可最小化人机观测空间上的差异,保证策略部署时的鲁棒性,同时也简化了硬件搭建。
相机配有155°宽视角鱼眼镜头,可以收集足够的视觉上下文和关键深度信息。相机的两边还配有两块物理侧镜,用于提供隐式的立体视角,辅助深度估计。
结合内置的IMU传感器,UMI能够在快速运动下稳健跟踪,即使在运动模糊或视觉特征缺失时也能在极短的时间内保持跟踪。
并且,能够最终靠视觉标记实时检测夹持器张开宽度,进行精细和连续的抓取控制,同时可隐式检测抓取力度。
总的来说,UMI夹持器的重量为780克,其中3D打印的夹持器材料成本为73美元,GoPro相机及配件的总成本为298美元。
可谓集便携、低成本、信息丰富的数据收集于一身,在任何家庭或餐厅,2分钟内就能开始进行数据收集。
具体来说,测量不同数据流的延迟将其对齐到最大延迟,通过图像时间戳进行线性插值,获得同步观测序列;测量机械臂和手持夹持器延迟,提前对应时间发送控制指令。
此外,作为策略输入的端效器(机械臂)位姿状态采用的是相对位姿序列的表示方法,所以与机器人基座的位置无关,可跨多个机器人平台部署,不要重新训练或校准。
凭借多样化操作数据集,UMI能训练出一个扩散策略(Diffusion Policy),实现零样本泛化到新环境和对象,使得机器人在新环境下执行任务,也能展示出高度的适应性和灵活性。
扩散策略基于团队之前的研究成果,把扩散模型用于机器人视觉运动策略学习,可优雅地处理多模态动作分布、适用于高维动作空间以及表现出令人印象非常深刻的训练稳定性。
通讯作者为斯隆奖得主、斯坦福助理教授、哥伦比亚大学兼职副教授宋舒然,两位共同一作都是宋舒然的博士生。
通过合适的策略接口,能轻松实现跨实体(cross-embodiment)的策略。
共同一作上交大校友Zhenjia Xu,哥伦比亚大学博士生及斯坦福大学机器人与具身智能实验室 (REAL)成员。
Cheng Chi认为,新方法在大多数任务上实现了70-90%的成功率,但仍然没有达到商业部署的标准。
可以看出,机器人在真实场景中还会碰到很多意想不到的问题,但这回新方法启动了数据飞轮,解决也只是时间问题。
本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。