产品聚焦 | 千万级成品数据集:OCR全能选手的“硬核底座”
近期,谷歌发布的新一代推理模型Gemini 2.5 Pro,堪称AI领域的最强选手,尤其在OCR(光学字符识别)领域上更是展现出超强能力,无论是复杂的手写字体、古籍文献,还是多语言混杂的票据,其近乎“零误差”的识别能力引发行业广泛关注,这一突破性表现又是如何实现的呢?
大模型通常需要海量的高质量OCR训练数据进行预训练,方能实现精准的识别能力。数据堂深耕OCR领域多年,构建了上千万张OCR成品数据集,覆盖50+语种、多版式、多场景,全部经过人工标注,为AI模型训练提供了关键的数据支撑。
- 自然场景OCR数据
百万余张自然场景OCR数据集,包含亚洲语系,如日语、韩语、印尼语、马来语等;欧洲语系,如法语、德语、意大利语、葡萄牙语等;东南亚语系,如高棉语(柬埔寨)、老挝语、缅甸语等共几十种语言,涵盖标语、海报、说明书、菜单等多种自然场景,通过手机、相机、扫描仪设备采集,采用仰视、俯视、平视多角度拍摄,采集、标注及文本转写精度均达97%以上,可用于多国语言自然场景OCR任务。
- 手写体OCR数据
十万余张多语言、多场景手写体OCR数据集,涵盖中文繁体、英语、日语、韩语、西班牙语、葡萄牙语、法语等,包括黑板、白板、绿板、A4纸、横线纸等多种文字载体,不同笔记不同颜色的书写方式及多种书写内容,拍摄角度为平视、俯视、仰视。采集、标注及文本转写精度均达97%以上,可用于手写体OCR任务。
- 异形文字OCR数据
- 文档OCR数据
千万级文档OCR数据集,包含说明书、办公文档、历史名著、表格等多种文档数据,涵盖以中文为主,英语、印地语等多种语言,文档格式包括PDF文档及图片文档,覆盖复杂版面OCR的需求,并严格对照文本位置进行文本转写,其检测框标注、文本转写精度达95%以上,可用于表格检测与识别、文章板式分割及分析等文档OCR任务。
- 票据OCR数据
数十万张多国票据OCR数据集,采集国家包括阿拉伯、墨西哥、巴西、印度等,语种分布主要为阿拉伯语、葡萄牙语、西班牙语、英语等。包含多种票据类型,对图像中的文本按照原排版进行转写,优先进行行对齐,个人信息进行脱敏处理,可用于票据识别、文字识别等任务。
- 问答OCR数据
两万余组中文OCR问答数据,包含广告牌、海报、手抄报、街景等多种场景、多种排列方式及多种字体,每张图像含有一个问答对,并对所回答内容在图中进行多边形框标注,其标注精度、文本转写精度和回答准确率均达97%以上。此数据可为多模态大模型提供丰富的资源,经过多家AI公司的验证,有助于模型在真实世界的应用中表现出色。
- 试题OCR数据
近六万张试题OCR数据集,汇集了小初高及大学、职业教育等学科,包含选择、填空、简答、解答等多种题型或答案中包含的插图,通过手机、扫描仪设备采集,对题干、选项、答案、配图等进行四边形框标注及转写,公式和表格使用latex格式转写,题型种类采集和分类准确率均不低于97%,可用于智能判卷、作业辅导等任务。
OCR技术的不断突破,始终离不开高质量数据的持续供给。数据堂精心构建的千万级OCR数据集,为行业提供了稳定可靠的数据基础,更助力AI模型从识别向理解的智能化转变。未来,数据堂将继续凭借高质量的数据服务,推动OCR技术在各领域的深度应用。