产品聚焦 | 千万级成品数据集：OCR全能选手的“硬核底座”

作者：数据堂发布时间：2025-05-07

近期，谷歌发布的新一代推理模型Gemini 2.5 Pro，堪称AI领域的最强选手，尤其在OCR（光学字符识别）领域上更是展现出超强能力，无论是复杂的手写字体、古籍文献，还是多语言混杂的票据，其近乎“零误差”的识别能力引发行业广泛关注，这一突破性表现又是如何实现的呢？

大模型通常需要海量的高质量OCR训练数据进行预训练，方能实现精准的识别能力。数据堂深耕OCR领域多年，构建了上千万张OCR成品数据集，覆盖50+语种、多版式、多场景，全部经过人工标注，为AI模型训练提供了关键的数据支撑。

自然场景OCR数据

百万余张自然场景OCR数据集，包含亚洲语系，如日语、韩语、印尼语、马来语等；欧洲语系，如法语、德语、意大利语、葡萄牙语等；东南亚语系，如高棉语（柬埔寨）、老挝语、缅甸语等共几十种语言，涵盖标语、海报、说明书、菜单等多种自然场景，通过手机、相机、扫描仪设备采集，采用仰视、俯视、平视多角度拍摄，采集、标注及文本转写精度均达97%以上，可用于多国语言自然场景OCR任务。

手写体OCR数据

十万余张多语言、多场景手写体OCR数据集，涵盖中文繁体、英语、日语、韩语、西班牙语、葡萄牙语、法语等，包括黑板、白板、绿板、A4纸、横线纸等多种文字载体，不同笔记不同颜色的书写方式及多种书写内容，拍摄角度为平视、俯视、仰视。采集、标注及文本转写精度均达97%以上，可用于手写体OCR任务。

异形文字OCR数据

五万余张中文异形OCR数据集，覆盖多种自然场景（街景、牌匾、广告牌、海报、装饰、艺术字、杂志封面）、多种排列方式（波浪、环形等）及多种字体。采集根据文本语义进行多边形框、四边形框标注和转写，其标注精度和文本转写精度达97%以上，可用于异形文本OCR任务。

文档OCR数据

千万级文档OCR数据集，包含说明书、办公文档、历史名著、表格等多种文档数据，涵盖以中文为主，英语、印地语等多种语言，文档格式包括PDF文档及图片文档，覆盖复杂版面OCR的需求，并严格对照文本位置进行文本转写，其检测框标注、文本转写精度达95%以上，可用于表格检测与识别、文章板式分割及分析等文档OCR任务。

票据OCR数据

数十万张多国票据OCR数据集，采集国家包括阿拉伯、墨西哥、巴西、印度等，语种分布主要为阿拉伯语、葡萄牙语、西班牙语、英语等。包含多种票据类型，对图像中的文本按照原排版进行转写，优先进行行对齐，个人信息进行脱敏处理，可用于票据识别、文字识别等任务。

问答OCR数据

两万余组中文OCR问答数据，包含广告牌、海报、手抄报、街景等多种场景、多种排列方式及多种字体，每张图像含有一个问答对，并对所回答内容在图中进行多边形框标注，其标注精度、文本转写精度和回答准确率均达97%以上。此数据可为多模态大模型提供丰富的资源，经过多家AI公司的验证，有助于模型在真实世界的应用中表现出色。

试题OCR数据

近六万张试题OCR数据集，汇集了小初高及大学、职业教育等学科，包含选择、填空、简答、解答等多种题型或答案中包含的插图，通过手机、扫描仪设备采集，对题干、选项、答案、配图等进行四边形框标注及转写，公式和表格使用latex格式转写，题型种类采集和分类准确率均不低于97%，可用于智能判卷、作业辅导等任务。

OCR技术的不断突破，始终离不开高质量数据的持续供给。数据堂精心构建的千万级OCR数据集，为行业提供了稳定可靠的数据基础，更助力AI模型从识别向理解的智能化转变。未来，数据堂将继续凭借高质量的数据服务，推动OCR技术在各领域的深度应用。

近期内容

以数据启智，赴科技之约——北京市正泽学校走进数据堂AI研学活动圆满举行

2026-04-01

荣膺殊荣 | 数据堂获焉知机器人知鼎奖「供应链卓越企业奖」

2026-03-27

数据堂参与共建的“多模态数据智能感知与治理北京市重点实验室”获批成立

2026-02-05

乘两会东风夯实AI底座：高质量数据集建设的战略路径与数据堂实践

2026-03-23

AI SHOW BEIJING | 数据堂期待与您相约北京，共赴AI与机器人产业盛会！

2026-03-11