绕不开的Ego-centric:第一人称视角如何成为具身数据采集的务实之选
遥操是最早被寄予厚望的方案。通过人远程操控机器人完成动作,直接采集“机器人视角”的操控数据,不存在迁移问题。通常采用两种控制方式:一是动捕手套,直接映射人手姿态;二是力反馈机械臂,提供触觉力反馈。这两种方式各有适用场景,但核心瓶颈在于效率。一名熟练操作员每小时仅能产出数十次有效动作,而训练一个具备泛化能力的模型至少需要百万次级以上演示。成本与规模的矛盾无法调和。
·真实场景:遥操通常在实验室模拟环境中进行,UMI虽可在真实野外采集,但受限于夹爪设备,而Ego-centric采集可以直接在街头、厨房、工厂等任意真实场景中执行,采集到的数据天然贴近模型最终应用环境。
·真实人员:遥操和UMI都需要操作员先学会操作设备(遥操台、夹爪等),采集者往往是“懂设备的新人”而非任务本身的行家。Ego-centric采集则可以直接找到真正熟练的人(比如专业厨师、手工艺人),让他们以最自然的方式完成任务,数据中蕴含的人类技巧和“手感”远超设备操作者模拟出来的动作。
·端到端学习:遥操和UMI通常只记录成功完成的任务片段,人为剔除了失败、中断、修正等过程。但在Ego-centric视角下,失败、停顿、恢复、犹豫全部被完整记录。这些恰恰是机器人需要学习的“真实世界规则”。一个会洒水的倒水动作,比一个永远完美的倒水动作更有教学价值。同时,由于采集过程无需同步驱动机器人,标注也大幅简化。
Ego-centric的核心理念可以概括为 “大力出奇迹” :不追求单条数据的极致精准,而是通过海量、连续、真实的操作数据,让AI自己学习人类行为的统计规律。从1万小时到10万小时,再到100万小时,数据规模每提升一个数量级,模型对物理世界的理解就会跃升一个台阶。这正是近期全球头部具身智能团队纷纷转向Ego-centric路线的根本原因。
想要把Ego-centric数据做出规模、做出质量,靠的不是简单的设备堆砌。一个能在这个方向上持续深耕的团队,必然在几个关键领域同时具备扎实的积累。
采集方案的系统设计能力
需要从模型训练的根本需求出发,设计整套采集方案,确保输出的数据具备可泛化的结构化关系,而非零散的画面片段。只是简单地把操作过程录下来,得到一堆零散的视频片段,却没有考虑动作、环境、物体之间的结构化关系,这样的数据录得再多,模型也很难学到真正有用的规律。
主要包含两个层面:一是感知覆盖,操作员不能只盯着前向视野,而要同时捕捉头部运动、躯干姿态、双臂协同等全局信息,让模型理解动作的完整因果链条;二是采集者的穿戴体验,设备必须足够轻便自然,让采集者数小时工作下来几乎察觉不到它的存在,否则疲劳和动作变形会直接摧毁数据质量。这两点本质上都是在解决同一个问题,即如何让采集过程本身不成为数据失真的干扰源。
高质量的数据还要告诉模型动作发生的原因和规律。在Ego-centric采集里,要求采集方案能精确捕捉动作发生的时空关键点,如何时接触、施力如何变化、姿态怎样调整,同时需要通过标注体系将逻辑关系结构化地描述出来。这要求采集团队有采标一体化的应对实力。
数据堂具身智能数据采集工厂现已扩展至8000平方米,具备零售、家居服务、仓储、医疗、工业等多类真实场景的模拟环境,并部署了300套灵巧手操作设备及多形态机器人本体。在任务覆盖上,从抓取、放置、搬运、装配到分拣、递送等数十类操作任务均有成熟方案。
同时,配备遥操作机械臂、力反馈设备、惯性动捕系统及多视角RGB-D视觉设备等多模态采集装备,可同步获取第一视角视频数据、动作轨迹、关节角度与力反馈信号,为VLA模型训练提供多模态对齐的完整数据链。
每条数据包含时间对齐的双目视频、双目相机参数、3D场景重建的点云文件、人体关节数据以及分步骤的语义标注文件,五位一体构成完整的感知-运动数据闭环。数据覆盖厨房、房间、酒店三大核心场景,具体任务涵盖食材准备与烹饪、清洁打扫、物品收纳、床铺整理、衣物折叠等多项双臂协同操作。相比于纯视频数据,该数据集为3D视觉导航、Sim2Real迁移、双臂协同学习等前沿课题提供了更丰富的几何与运动信息,是构建具身智能基座模型的重要基础设施。
每组数据均为第一人称视角下的完整人-物互动视频,覆盖摆摊、烹饪(室内+室外)、绘画、手工、运动、手机展示等17个以上的生活场景。其核心优势在于标注的深度与粒度:不仅提供整体任务描述,更包含分步骤的密集语义标注,精确到秒级时间戳。例如,将“制作一份玉米糕”拆解为切割、打包、交付、收款等原子动作。这种标注结构使得模型能够系统学习任务的时序依赖与手-物交互细节,适合用于机器人长序列任务规划、第一人称动作识别以及视频理解预训练。
具身智能的世界里,真正稀缺的是稳定产出高价值数据的能力。而不同技术路线的争论终将归于工业化落地,先一步拥有稳定产出高价值数据能力的伙伴,就能在竞争中占领先机。