cn
数据解决方案
请输入姓名
手机号码格式错误
请输入联系电话
请输入公司名称
请输入正确的工作邮箱
请输入数据需求
提交成功!感谢您支持数据堂。
填写格式错误请重新填写
确定
数据需求不能小于5个字且不能为纯数字
https://www.datatang.com
https://www.datatang.ai
m.datatang.ai
作者:数据堂 发布时间:2025-01-09
数据堂发布新一批多语种大模型预训练数据集、多模态大模型数据集、语音识别训练数据集、计算机视觉训练数据集,助力企业研发更高精度的大模型和AI模型,满足全球用户的不同需求。
Ø 1000万道英文试题
英美体系下的试题文本,内容涵盖小初高数学、物理、生物等多学科、大学多专业。每道试题包含问题、答案、解析、学科、年级、题型字段,已完成内容清洗、公式 latex 转换及表格格式转换。
Ø 200万道韩语试题结构化解析处理数据
内容涵盖小学、初中、高中8大学科试题,题型类别囊括选择题、填空题、判断题、问答题等。每道题包含题型、问题、答案、解析等字段,可用于大模型学科知识增强任务。
Ø 50万组人东南亚语种多轮对话文本数据
真实用户在手机端的交互类文本数据,每组包含两个角色的多轮对话,至少5轮,平均轮次在6轮左右。每组对话都有详细的主题分类。数据本身已进行脱敏处理,消除了用户隐私信息。
大模型-多模态数据集
Ø 10万组多国国风图文描述数据
国家涵盖西班牙、葡萄牙、意大利、法国、德国、日本、韩国。图片类型包括但不限于地标建筑、手工艺品、饮食、书法画作、节日、服饰、乐器等。描述语言为中文及对应国家语言。
Ø 100万组高质量视频描述数据
均为全球摄影师发布的正版视频作品。视频涵盖风景、建筑、人物、植物、动物、虚拟渲染、食物、物品、航拍、延时摄影、慢动作摄影、特写摄影等多种类型,分辨率均不低于1920x1080,时长均不低于5s。可用于视觉大模型、视频生成、视频描述等任务。
Ø 10万组通用场景图像问答数据
图像分辨率不低于200万像素,类型包含景观、活动、人物、动物、植物等。每张图片包含一个识别类问答与一个推理性问答。准确率不低于97%,多种场景、多种问题为多模态大模型提供了丰富的数据资源。
Ø 10万组人体动作视频描述数据
数据多样性包括室内、室外等多种场景、中文、英文等多语言、打电话、抽烟、喝水等多种人体动作、视频、文本等多种模态。描述内容不低于 30 个字词。所有被采集者均已签署授权协议。
小语种&方言语音数据集
Ø 500小时土耳其语自然对话语音数据
由800余名发音人参与录制,以自然方式进行交流,针对给定的数个话题自由发挥,领域广泛,语音自然流利,符合实际对话场景。人工转写文本,准确率高。此数据集标注说话人身份性别、噪音标注等多种属性,句错误率(SER)低于5%。
Ø 500小时阿拉伯语自然对话语音数据
由来自不同地域和文化背景的沙特阿拉伯本土人录制,涵盖旅行、工作、电影等日常话题。一组为2人,录制多段对话,每段对话不超过 30 分钟。标注文本内容、句时间戳、说话人标识、性别等。
Ø 400小时古吉拉特语口语化语音数据
16kHz,16 bit, wav,单声道。由多名来自不同地域和文化背景的印度人录制,包含对话类、自媒体类、直播类等不同类型的语音,说话语气自然,多种日常口语化的表述,贴合真实世界的口语语境。词准率达98%。
Ø 600小时台湾普通话自然对话语音数据
由约千名台湾人录制,录制环境为相对安静的室内,无回声。发音人围绕36个常见话题展开自然对话,同时录制对话的内容。标注文本内容、普通话释义、有效句子的起止时间点、说话人标识。
Ø 300小时长沙方言自然对话语音数据
发音人来自长沙本地,均为长沙方言使用者。不指定话题,录音人两人为一组自由交谈,每段对话不超过30分钟。录制环境底噪低于40dB,句准确率95%。参与项目的录音人员均已签订数据使用授权协议,确保数据安全性。
计算机视觉训练数据集
Ø 5万组人像精修前后图像数据
国家分布主要为东南亚和东欧国家,人种分为黄种人、黑种人、白种人。数据类型包括写真照、家庭合照、婚纱照等。在数据标注方面,对采集的影楼人像数据进行精修标注,可用于影楼人像精修、PS抠图、人像分割等任务。
Ø 15万人多人种一人多照数据
人种涵盖黄种人、黑种人、白种人、棕色人种,每人至少5张照片。覆盖多年龄段、多种场景、人脸多姿态、多表情。标注被采集者的人物id、人种、国籍、性别、年龄段等,标签标注准确率95%以上。
Ø 1万张多国外语板报手写体OCR数据
语种涵盖英语、西班牙语、葡萄牙语、法语、日语、意大利语等。其中,英语占60%以上。采集环境包括黑板、白板、绿板。拍摄角度覆盖平视、俯视、仰视。采集精度不低于97%,可用于手写体OCR任务。
Ø 5万组环视BEV泊车采集标注数据
覆盖住宅区、商场、超市、公司、小区、景点、路边车位等多种环境。车位类型包含正向车位、侧方车位、斜向车位、机械停车位、以及残疾人专用、女性专用、充电 等其他停车位。采集多样性包括周边环境状态的多样性、路面材质的多样性、天气多样性、时间及光源的多样性。