大厂严选 | 数据堂2025年度版权数据集热销榜单重磅发布!
高质量、多场景、合规可用的数据集已成为大模型与AI产品迭代的关键支撑。数据堂深耕AI数据服务领域十余年,现推出2025年度大厂热销版权数据集,为AI技术研发与商业化落地提供坚实底座。数据堂严格遵循数据相关法律法规,确保数据采集、标注、存储和使用的全流程安全合规。
数据堂2025年度版权数据集热销榜
- 大模型热销数据
1,044万道英文试题文本数据结构化解析处理数据
每道试题包含问题、答案、解析、学科、年级、题型字段,覆盖小初高到大学等各学科,如数学、生物、会计等,解析了学科、问题、解析及答案等,做了公式latex转换和表格格式转换,内容也做了清洗,该数据为英美体系下试题文本。
3,200万道理工科试题文本结构化解析处理数据
包含小学、初中、高中、大学的数学、物理、化学、生物等理工科学科。每道试题包含问题、答案、解析、题型、学科、学段等字段。该数据可用于大模型学科知识增强任务。
包含手机、平板电脑、PC三种设备的GUI交互轨迹数据,涵盖桌面应用操作、网页浏览行为等多种场景,并对用户操作步骤、界面元素状态、任务目标及执行结果进行了精细化标注。该数据集包含完整的操作逻辑链与思维链,可显著提升智能体的界面理解与任务自动化能力。
TOP 5
5万组图像编辑数据
编辑类型包括人像属性编辑、图像语义编辑、图像结构编辑,编辑目标涵盖人物、动物、商品、植物、风景等场景。在标注方面,根据编辑指令对图像中需要编辑的目标进行编辑。数据可用于图像合成、数据增强、虚拟场景生成等任务。
- OCR热销数据
千万级文档OCR及结构化解析数据
包含说明书、办公文档、表格等多种文档类型,原始文档文件格式为pdf,文档图像文件格式为png,OCR标注文件格式为json,结构化解析文件格式为markdown(表格及公式采用的为Latex格式或截图链接),并严格对照文本位置进行转写,个人信息进行脱敏处理,其检测框标注、文本转写精度达97%以上。
2,504张中文手写体OCR数据
书写环境包括A4纸、方格纸、横格纸、白板、彩色便签和答题卡等。书写内容包括诗歌、散文、店铺活动通知、祝福语、摘抄文本等。数据多样性包括多种书写纸张、多种字体、多种书写内容、多种采集角度。采集、标注及文本转写精度均达98%以上,可用于手写体OCR任务。
TOP 4
500,000张21国自然场景&文档场景&截屏场景OCR标注数据
包含21个语种,每个语种数量分布为20,000-25,000张。数据类型包括自然场景、文档拍照场景和电子场景。数据多样性包括多种数据类型、多种拍摄角度、多语种。在标注方面,采用行(列)级四边形或多边形标注、行(列)级内容转写。数据可用于多语种OCR识别任务。
- 语音识别热销数据
TOP 1
800小时上海话自然对话(双语标注)手机采集语音数据
由1200名来自上海地区使用江淮官话的县市的录音人录制,男女比例均衡,覆盖多个年龄段,在相对安静的室内进行录制。标注内容包括文本内容、普通话释义、有效句子的起止时间点、说话人标识,字准确率达98%以上。
799小时四川方言自然对话手机采集语音数据
由1,700余名来自四川地区的川渝方言使用者自由交谈并进行录制,标注了文本内容、句时间戳、说话人身份、性别等多种属性,句准确率达97%以上,为语音识别相关研究及应用提供了丰富的资源。
3,000小时全双工普通话自然对话语音数据
约3600名录音人,男女比例均衡,覆盖多个年龄段。 无预制文本,录音人围绕话题以自然方式进行对话,同时录制对话的内容。此数据集标注了文本内容、句时间戳、性别等多种属性,准确性高,参与项目的录音人员均已签订数据使用授权协议。
500小时青岛话自然对话(双语标注)手机采集语音数据
由来自青岛地区的县市母语方言使用者自由交谈并进行录制。此数据集标注了文本内容、普通话释义、句时间戳、说话人身份、性别等多种属性,字准确性达98%以上。
633小时日语自然对话手机采集语音数据
基于30余个常见主题来模拟录制。此数据集标注了文本内容、句时间戳、说话人身份、性别等多种属性,由1000余名来自不同地域和文化背景的日本本土人录制,男女比例均衡,准确性高。
- 语音合成热销数据
5小时上海方言女声合成库
由上海本土人参与录制。录音内容包含发音人无文本自由发挥,指定文本的多种话题、语气词、中英混及英文单词。由专业语音学家参与标注,精准匹配语音合成的研发需求。
- 人脸识别热销数据
88,880人多人种一人多照数据
一个人至少包含5张图片,包含人脸多姿态和多表情,人种分布包括黄种人,黑人,白人和棕色人种,年龄分布从婴幼儿到老人,以中青年为主。采集环境包括室内和室外场景,数据均在境外采集。本数据可用于人脸识别等任务。
- 数字人热销数据
包含2.5万人在不同场景下的多风格视频,人物肤色覆盖白、黄、棕、黑,年龄覆盖青年、中年、老年,视频分辨率不低于1920x1080,时长不低于10秒。该数据集可用于人物一致性视频生成、数字人生成等任务。
选择更高质量的训练数据,就是选择更高效的AI技术进化路径。未来,数据堂将持续深耕优质数据,不断推出更多适配智能化场景的数据产品,与全球伙伴共赴AI创新之路。