数据上新|覆盖全双工、具身智能、世界模型等热门研究趋势

作者:数据堂发布时间:2026-05-28
2026年,AI技术攻坚的焦点正加速向语音交互的极致拟人、多模态大模型的跨模态理解、具身智能的环境交互,以及世界模型的物理模拟等深水区挺进。数据堂作为全球AI训练数据领军者,始终与前沿科研与产业需求同频共振,紧扣当前AI突破的关键节点开发高质量数据集。

数据堂最新上架一批高质量数据集,覆盖全双工语音识别、实体识别、图像视频编辑、具身智能及世界模型等热门行业趋势,为模型训练提供坚实、精准、可落地的数据支撑。

ASR&TTS数据集


4600小时全双工普通话自然对话语音数据
采用麦克风与手机双设备录制,分别输出48kHz和24kHz未压缩wav格式。共5810名录音人参与,男女比例均衡,覆盖多个年龄段。录音人从话题列表中挑选熟悉话题展开自然对话,无预制文本确保流畅度。全双工设计保留语音重叠与背景噪音,字准确率99%。适用于语音识别、声纹识别模型训练。
点击获取数据样例

579小时48khz全双工日语自然对话语音数据
采用48kHz/32bit未压缩WAV格式录制,高保真麦克风采集,字准确率超98%。对话基于熟悉话题自然展开,流畅度贴近真实交流场景。全双工设计支持语音重叠标注,完整保留双方并行发言与背景噪音信息。为语音识别、声纹识别及对话系统提供稀缺的高质量日语训练资源,助力模型在自然交互场景中表现更精准。
点击获取数据样例

中国中文普通话实体标注朗读语音数据
基于给定的文本朗读并模拟录制,涵盖人名、电话号码、地址、数字字母序列、Email、产品型号、产品序列号、金钱等多个实体类型,内容丰富。此数据集标注了文本内容等多种属性,准确性高,为语音识别相关研究及应用提供了丰富的资源。我们严格遵循数据保护法规和隐私规定,确保数据采集、存储和使用的过程中维护用户的隐私和合法权益。
点击获取数据样例

日语实体标注手机采集朗读语音数据
由日本母语者实景录制,精准覆盖人名、电话、地址、邮箱等8类关键实体词,标注字准确率高达98%。数据采用16kHz/16bit无损WAV格式,适配语音识别与声纹识别模型训练。严谨的采集流程与高质量标注,为日语语音系统提供坚实的数据支撑,助力产品快速落地。
点击获取数据样例

数据堂实体标注语音数据集系列已覆盖荷兰语、泰语、葡萄牙语、德语、法语、英语、韩语等多语种,均采用统一标注规范与高质量采集流程,为全球多语言语音识别与声纹系统提供坚实数据基础。

40人多级控制多情感精标副语言合成库
由40人专业声优在专业录音棚环境录制,48kHz/32bit未压缩wav格式。内容涵盖多级控制、多级情感、单级语气、情绪转换及副语言。多级控制包含音调2等级、音量3等级、语速3等级;副语言标注丰富,包括笑声(普通笑、苦笑、开怀大笑等)、哭声(小声啜泣、嚎啕大哭等)、咳嗽、叹气、清嗓子、结巴、气喘吁吁、拖长音、重音等。字准确率不低于99.9%,副语言标签句正确率99%,为语音合成模型提供精细情感表达与副语言控制能力训练资源。
点击获取数据样例

图像识别数据集

100,000张13国票据采集数据
数据包含13个国家(印地语、印尼语、马来语、越南语、泰语、英语、日语、法语、德语、意大利语、葡萄牙语、 俄语、西班牙语),每个国家8,000张。票据类型包括超市小票、饭店小票、交通小票、购物小票、入场券等。数据可用于票据识别等任务。

多模态大模型数据集


160万组图像视频编辑数据
编辑类型包括人像属性编辑、图像语义编辑、图像结构编辑。编辑目标涵盖人物、动物、商品、植物、风景等场景。在标注方面,根据编辑指令,对图像视频中需要编辑的目标进行编辑。编辑效果自然合理,可用于图像合成、数据增强、虚拟场景生成、视频编辑等任务。
点击获取数据样例

8000组英语多模态GUI Agent数据(连续帧) 
8000组跨平台GUI交互样本,覆盖多端设备。场景涵盖内置工具、生活服务、影音娱乐、办公教育等多元类型,标注融合自然语言指令、步骤及思维链推导过程,同步完成操作区域定位。合格率超95%,为GUI Agent模型提供完整的指令理解与界面操作对齐数据,加速智能体在复杂交互环境中的任务执行能力落地。

1万组韩语多模态GUI Agent数据(连续帧)
覆盖多端设备。场景涵盖内置工具、生活服务、影音娱乐、办公教育等多元类型,标注融合自然语言指令、步骤及思维链推导过程,同步完成操作区域定位。合格率超95%,为GUI Agent模型提供完整的指令理解与界面操作对齐数据,加速智能体在复杂交互环境中的任务执行能力落地。

15万组图文交织数据_分镜头脚本 
包括15万组视频分镜头脚本形成的图文交织序列,每组序列由不少于50个相互关联的图像-文本对组成,讲述一个相对完整的故事情节。视频覆盖主流题材,符合现代审美。每组序列长度不少于50个图像-文本对,故事情节相对完整。图像分辨率不低于2560x1440,宽高比在[1/3, 3]之间。文本内容和图像联系紧密,语句通顺连贯。该数据集可用于长序列的图像理解和生成任务。

具身智能&世界模型数据集

5000小时具身智能灵巧手遥操数据
本数据含5000小时具身智能灵巧手操作视频,包含短任务和长任务帧率≥24FPS。涵盖厨房、书房、客厅等家居模拟场景,并且包含多种场景及光照。数据基于多视角同步采集,配合高精度标注,包含关节位置、任务指令、多种标签(光照条件、干扰类型等),多视角设备同步误差<25ms,合格率超95%。支持多自由度机械臂协同,专为具身智能模型训练打造,提供高质量视动触输入,助力机器人在复杂环境理解与精细操作升级。


10万组人-物第一人称互动视频标注数据
第一人称人物多任务互动视频,任务涵盖烹饪、手工、运动等,标注包含整体描述和分动作密集描述两部分。正确率超过98%。标注无明显语法错误,无明显错别字,无涉黄涉暴等敏感信息,则视为标注正确,以标点符号为间隔,标注正确的句子占比不低于95%。

230万分钟3D游戏场景世界模型数据
本数据含230万分钟3D游戏场景视频,分辨率≥2560*1440,帧率≥24FPS。涵盖多样天气地形及真实玩家交互(攻击、载具),无UI遮挡场景纯净。配高精度标注含键鼠操作轨迹及交互语义,时间误差<0.1秒,合格率超95%。专为世界模型训练打造,提供高质量视动输入,助力AI在复杂3D环境理解与决策升级。

1000小时真实人-世界第一人称场景交互视频数据
涵盖世界场景漫游(拍摄第一视角浏览为主)和世界场景交互(允许出现人-物交互和人-人交互,整体上需保持前进,场景保持变化)符合采集要求的视频数据占比不低于98%。

数据集均严格遵循GDPR、CCPA、PIPL等全球隐私法规,从采集、标注到交付全程合规可控,保障数据安全合规。每套数据均经过专业化处理与严格质检,标注准确率普遍达95%-99%,真正实现“即买即用”。

如对特定场景、语种或标注类型有更精细的需求,欢迎随时与我们联系,数据堂将为您量身打造最适合的数据解决方案。