绕不开的Ego-centric：第一人称视角如何成为具身数据采集的务实之选

作者：数据堂发布时间：2026-05-14

当前具身智能的数据来源总体分为两条路径：真实采集与仿真合成。在真实采集的范畴内，行业先后发展出遥操作、UMI夹爪、第一人称视角（Ego-centric）三种主要方式。其中，Ego-centric在数据维度、采集效率与规模化成本之间展现出独特优势，正成为构建具身智能基座模型的务实选择。

本文将梳理真实采集领域从遥操作到Ego-centric的路线演进，拆解Ego-centric数据生产中的关键细节，并介绍数据堂在此方向上的定制采集能力与成品数据集。

实采的三条路线：遥操、UMI与Ego-centric的演进

遥操是最早被寄予厚望的方案。通过人远程操控机器人完成动作，直接采集“机器人视角”的操控数据，不存在迁移问题。通常采用两种控制方式：一是动捕手套，直接映射人手姿态；二是力反馈机械臂，提供触觉力反馈。这两种方式各有适用场景，但核心瓶颈在于效率。一名熟练操作员每小时仅能产出数十次有效动作，而训练一个具备泛化能力的模型至少需要百万次级以上演示。成本与规模的矛盾无法调和。

UMI试图走一条折中路线。通过轻量化夹爪和传感器，让人手直接操作夹爪采集数据，再映射到机器人。相比遥操作，UMI的采集效率明显提升，但传感器维度有限。缺少手部关节、力度反馈等关键信息，且夹爪形态与真实人手差异较大，导致数据泛化能力受限。

第一人称视角（Ego-centric）采集则代表了截然不同的思路。采集者佩戴头戴式相机，在日常环境中自然完成各种任务，无需刻意操纵机器人或佩戴额外设备。这一方案的单人日均数据产出可达8小时以上，采集成本降至百元/小时级别。更重要的是，Ego-centric采集在以下三个维度上与遥操、UMI形成本质区别：

·真实场景：遥操通常在实验室模拟环境中进行，UMI虽可在真实野外采集，但受限于夹爪设备，而Ego-centric采集可以直接在街头、厨房、工厂等任意真实场景中执行，采集到的数据天然贴近模型最终应用环境。

·真实人员：遥操和UMI都需要操作员先学会操作设备（遥操台、夹爪等），采集者往往是“懂设备的新人”而非任务本身的行家。Ego-centric采集则可以直接找到真正熟练的人（比如专业厨师、手工艺人），让他们以最自然的方式完成任务，数据中蕴含的人类技巧和“手感”远超设备操作者模拟出来的动作。

·端到端学习：遥操和UMI通常只记录成功完成的任务片段，人为剔除了失败、中断、修正等过程。但在Ego-centric视角下，失败、停顿、恢复、犹豫全部被完整记录。这些恰恰是机器人需要学习的“真实世界规则”。一个会洒水的倒水动作，比一个永远完美的倒水动作更有教学价值。同时，由于采集过程无需同步驱动机器人，标注也大幅简化。

Ego-centric的核心理念可以概括为 “大力出奇迹” ：不追求单条数据的极致精准，而是通过海量、连续、真实的操作数据，让AI自己学习人类行为的统计规律。从1万小时到10万小时，再到100万小时，数据规模每提升一个数量级，模型对物理世界的理解就会跃升一个台阶。这正是近期全球头部具身智能团队纷纷转向Ego-centric路线的根本原因。

Ego数据生产的关键，藏在这几个细节里

想要把Ego-centric数据做出规模、做出质量，靠的不是简单的设备堆砌。一个能在这个方向上持续深耕的团队，必然在几个关键领域同时具备扎实的积累。

采集方案的系统设计能力

需要从模型训练的根本需求出发，设计整套采集方案，确保输出的数据具备可泛化的结构化关系，而非零散的画面片段。只是简单地把操作过程录下来，得到一堆零散的视频片段，却没有考虑动作、环境、物体之间的结构化关系，这样的数据录得再多，模型也很难学到真正有用的规律。

采集现场的把控能力

主要包含两个层面：一是感知覆盖，操作员不能只盯着前向视野，而要同时捕捉头部运动、躯干姿态、双臂协同等全局信息，让模型理解动作的完整因果链条；二是采集者的穿戴体验，设备必须足够轻便自然，让采集者数小时工作下来几乎察觉不到它的存在，否则疲劳和动作变形会直接摧毁数据质量。这两点本质上都是在解决同一个问题，即如何让采集过程本身不成为数据失真的干扰源。

高精度结构化数据的生产能力

高质量的数据还要告诉模型动作发生的原因和规律。在Ego-centric采集里，要求采集方案能精确捕捉动作发生的时空关键点，如何时接触、施力如何变化、姿态怎样调整，同时需要通过标注体系将逻辑关系结构化地描述出来。这要求采集团队有采标一体化的应对实力。

具备这几项深度能力的团队，在行业中并不常见。数据堂正是其中之一：依托8000平方米实景数据工厂、千余台专业设备与标准化采集员团队，已将上述能力内化为成熟的生产流程，并在此基础上推出了两款即买即用的Ego-centric成品数据集。

数据堂：从工业化采集到标准化成品

数据堂具身智能数据采集工厂现已扩展至8000平方米，具备零售、家居服务、仓储、医疗、工业等多类真实场景的模拟环境，并部署了300套灵巧手操作设备及多形态机器人本体。在任务覆盖上，从抓取、放置、搬运、装配到分拣、递送等数十类操作任务均有成熟方案。

同时，配备遥操作机械臂、力反馈设备、惯性动捕系统及多视角RGB-D视觉设备等多模态采集装备，可同步获取第一视角视频数据、动作轨迹、关节角度与力反馈信号，为VLA模型训练提供多模态对齐的完整数据链。

除了支持高精度遥操采集之外，数据堂还构建了一套可工业化运转的Ego-centric数据生产体系。目前，数据堂已投入超过1000台专业穿戴采集设备，可支撑场外众包模式的大规模数据采集，可实现单台设备日产出3.5小时有效数据，规模化成本控制在100元/小时。采集场景覆盖烹饪、手工、清洁收纳、运动等室内外百余种真实操作场景，还支持从纯视频到双目+点云+关节的多模态采集方案。

基于上述能力，数据堂正式推出两款可直接使用的Ego-centric成品数据集，分别面向不同的研发阶段与数据需求。

☛ 10万小时多场景Ego-Centric数据

每条数据包含时间对齐的双目视频、双目相机参数、3D场景重建的点云文件、人体关节数据以及分步骤的语义标注文件，五位一体构成完整的感知-运动数据闭环。数据覆盖厨房、房间、酒店三大核心场景，具体任务涵盖食材准备与烹饪、清洁打扫、物品收纳、床铺整理、衣物折叠等多项双臂协同操作。相比于纯视频数据，该数据集为3D视觉导航、Sim2Real迁移、双臂协同学习等前沿课题提供了更丰富的几何与运动信息，是构建具身智能基座模型的重要基础设施。

☛ 点击获取样例

☛ 10万组人-物第一人称互动视频标注数据

每组数据均为第一人称视角下的完整人-物互动视频，覆盖摆摊、烹饪（室内+室外）、绘画、手工、运动、手机展示等17个以上的生活场景。其核心优势在于标注的深度与粒度：不仅提供整体任务描述，更包含分步骤的密集语义标注，精确到秒级时间戳。例如，将“制作一份玉米糕”拆解为切割、打包、交付、收款等原子动作。这种标注结构使得模型能够系统学习任务的时序依赖与手-物交互细节，适合用于机器人长序列任务规划、第一人称动作识别以及视频理解预训练。

具身智能的世界里，真正稀缺的是稳定产出高价值数据的能力。而不同技术路线的争论终将归于工业化落地，先一步拥有稳定产出高价值数据能力的伙伴，就能在竞争中占领先机。

数据堂依托自建的8000平方米实景数据工厂、千余台专业设备与标准化采集员团队，已同步具备真机遥操作、UMI、Ego-centric等多种技术路线的规模化交付能力。从路线选择阶段开始，数据堂就可以为您评估不同方案，并量身定制最适合您的数据解决方案。

近期内容

数据堂入选亿欧智库《2026中国具身智能数据采集与数据产业发展展望》优秀案例

2026-07-07

给机器人装上“前额叶”：具身智能的世界模型数据基建

2026-06-24

数据堂高质量数据集建设入选《数据要素市场化配置改革案例选》

2026-06-18

提速模型搭建：Ego-Centric成品数据+实景采集一站式解决方案

2026-06-18

数据上新｜覆盖全双工、具身智能、世界模型等热门研究趋势

2026-05-28