数据上新｜覆盖全双工、具身智能、世界模型等热门研究趋势

作者：数据堂发布时间：2026-05-28

2026年，AI技术攻坚的焦点正加速向语音交互的极致拟人、多模态大模型的跨模态理解、具身智能的环境交互，以及世界模型的物理模拟等深水区挺进。数据堂作为全球AI训练数据领军者，始终与前沿科研与产业需求同频共振，紧扣当前AI突破的关键节点开发高质量数据集。

数据堂最新上架一批高质量数据集，覆盖全双工语音识别、实体识别、图像视频编辑、具身智能及世界模型等热门行业趋势，为模型训练提供坚实、精准、可落地的数据支撑。

ASR&TTS数据集

4600小时全双工普通话自然对话语音数据
采用麦克风与手机双设备录制，分别输出48kHz和24kHz未压缩wav格式。共5810名录音人参与，男女比例均衡，覆盖多个年龄段。录音人从话题列表中挑选熟悉话题展开自然对话，无预制文本确保流畅度。全双工设计保留语音重叠与背景噪音，字准确率99%。适用于语音识别、声纹识别模型训练。
点击获取数据样例

579小时48khz全双工日语自然对话语音数据
采用48kHz/32bit未压缩WAV格式录制，高保真麦克风采集，字准确率超98%。对话基于熟悉话题自然展开，流畅度贴近真实交流场景。全双工设计支持语音重叠标注，完整保留双方并行发言与背景噪音信息。为语音识别、声纹识别及对话系统提供稀缺的高质量日语训练资源，助力模型在自然交互场景中表现更精准。
点击获取数据样例

中国中文普通话实体标注朗读语音数据
基于给定的文本朗读并模拟录制，涵盖人名、电话号码、地址、数字字母序列、Email、产品型号、产品序列号、金钱等多个实体类型，内容丰富。此数据集标注了文本内容等多种属性，准确性高，为语音识别相关研究及应用提供了丰富的资源。我们严格遵循数据保护法规和隐私规定，确保数据采集、存储和使用的过程中维护用户的隐私和合法权益。
点击获取数据样例

日语实体标注手机采集朗读语音数据
由日本母语者实景录制，精准覆盖人名、电话、地址、邮箱等8类关键实体词，标注字准确率高达98%。数据采用16kHz/16bit无损WAV格式，适配语音识别与声纹识别模型训练。严谨的采集流程与高质量标注，为日语语音系统提供坚实的数据支撑，助力产品快速落地。
点击获取数据样例

数据堂实体标注语音数据集系列已覆盖荷兰语、泰语、葡萄牙语、德语、法语、英语、韩语等多语种，均采用统一标注规范与高质量采集流程，为全球多语言语音识别与声纹系统提供坚实数据基础。

40人多级控制多情感精标副语言合成库
由40人专业声优在专业录音棚环境录制，48kHz/32bit未压缩wav格式。内容涵盖多级控制、多级情感、单级语气、情绪转换及副语言。多级控制包含音调2等级、音量3等级、语速3等级；副语言标注丰富，包括笑声（普通笑、苦笑、开怀大笑等）、哭声（小声啜泣、嚎啕大哭等）、咳嗽、叹气、清嗓子、结巴、气喘吁吁、拖长音、重音等。字准确率不低于99.9%，副语言标签句正确率99%，为语音合成模型提供精细情感表达与副语言控制能力训练资源。
点击获取数据样例

图像识别数据集

100,000张13国票据采集数据
数据包含13个国家（印地语、印尼语、马来语、越南语、泰语、英语、日语、法语、德语、意大利语、葡萄牙语、俄语、西班牙语），每个国家8,000张。票据类型包括超市小票、饭店小票、交通小票、购物小票、入场券等。数据可用于票据识别等任务。

多模态大模型数据集

160万组图像视频编辑数据
编辑类型包括人像属性编辑、图像语义编辑、图像结构编辑。编辑目标涵盖人物、动物、商品、植物、风景等场景。在标注方面，根据编辑指令，对图像视频中需要编辑的目标进行编辑。编辑效果自然合理，可用于图像合成、数据增强、虚拟场景生成、视频编辑等任务。
点击获取数据样例

8000组英语多模态GUI Agent数据（连续帧）
8000组跨平台GUI交互样本，覆盖多端设备。场景涵盖内置工具、生活服务、影音娱乐、办公教育等多元类型，标注融合自然语言指令、步骤及思维链推导过程，同步完成操作区域定位。合格率超95%，为GUI Agent模型提供完整的指令理解与界面操作对齐数据，加速智能体在复杂交互环境中的任务执行能力落地。

1万组韩语多模态GUI Agent数据（连续帧）
覆盖多端设备。场景涵盖内置工具、生活服务、影音娱乐、办公教育等多元类型，标注融合自然语言指令、步骤及思维链推导过程，同步完成操作区域定位。合格率超95%，为GUI Agent模型提供完整的指令理解与界面操作对齐数据，加速智能体在复杂交互环境中的任务执行能力落地。

15万组图文交织数据_分镜头脚本
包括15万组视频分镜头脚本形成的图文交织序列，每组序列由不少于50个相互关联的图像-文本对组成，讲述一个相对完整的故事情节。视频覆盖主流题材，符合现代审美。每组序列长度不少于50个图像-文本对，故事情节相对完整。图像分辨率不低于2560x1440，宽高比在[1/3, 3]之间。文本内容和图像联系紧密，语句通顺连贯。该数据集可用于长序列的图像理解和生成任务。

具身智能&世界模型数据集

5000小时具身智能灵巧手遥操数据
本数据含5000小时具身智能灵巧手操作视频，包含短任务和长任务帧率≥24FPS。涵盖厨房、书房、客厅等家居模拟场景，并且包含多种场景及光照。数据基于多视角同步采集，配合高精度标注，包含关节位置、任务指令、多种标签（光照条件、干扰类型等），多视角设备同步误差<25ms，合格率超95%。支持多自由度机械臂协同，专为具身智能模型训练打造，提供高质量视动触输入，助力机器人在复杂环境理解与精细操作升级。

10万组人-物第一人称互动视频标注数据
第一人称人物多任务互动视频，任务涵盖烹饪、手工、运动等，标注包含整体描述和分动作密集描述两部分。正确率超过98%。标注无明显语法错误，无明显错别字，无涉黄涉暴等敏感信息，则视为标注正确，以标点符号为间隔，标注正确的句子占比不低于95%。

230万分钟3D游戏场景世界模型数据
本数据含230万分钟3D游戏场景视频，分辨率≥2560*1440，帧率≥24FPS。涵盖多样天气地形及真实玩家交互（攻击、载具），无UI遮挡场景纯净。配高精度标注含键鼠操作轨迹及交互语义，时间误差<0.1秒，合格率超95%。专为世界模型训练打造，提供高质量视动输入，助力AI在复杂3D环境理解与决策升级。

1000小时真实人-世界第一人称场景交互视频数据
涵盖世界场景漫游（拍摄第一视角浏览为主）和世界场景交互（允许出现人-物交互和人-人交互，整体上需保持前进，场景保持变化）符合采集要求的视频数据占比不低于98%。

数据集均严格遵循GDPR、CCPA、PIPL等全球隐私法规，从采集、标注到交付全程合规可控，保障数据安全合规。每套数据均经过专业化处理与严格质检，标注准确率普遍达95%-99%，真正实现“即买即用”。

如对特定场景、语种或标注类型有更精细的需求，欢迎随时与我们联系，数据堂将为您量身打造最适合的数据解决方案。

近期内容

数据堂入选亿欧智库《2026中国具身智能数据采集与数据产业发展展望》优秀案例

2026-07-07

给机器人装上“前额叶”：具身智能的世界模型数据基建

2026-06-24

数据堂高质量数据集建设入选《数据要素市场化配置改革案例选》

2026-06-18

提速模型搭建：Ego-Centric成品数据+实景采集一站式解决方案

2026-06-18

数据上新｜覆盖全双工、具身智能、世界模型等热门研究趋势

2026-05-28