数据推荐 | 自然场景OCR文字识别数据集一览

作者：数据堂发布时间：2023-03-30

自然场景OCR任务介绍

文字识别（optical character recognition，OCR）是指例如扫描仪或数码相机的电子设备检查图像中的字符，然后用字符识别方法将形状翻译成计算机文字的任务。OCR应用场景比较丰富，包括自然场景、手写场景、文档识别等。作为OCR任务中应用最广泛、具备巨大市场需求的场景之一是自然场景OCR。自然场景是指人们日常生活涉及到的OCR场景，文字载体通常可以为商店牌匾、站牌、海报、路标、漫画、井盖画、提示语、警示语、包装说明、菜单、建筑物标志等。

自然场景OCR数据标注方式

按照不同的标注精细程度，通常可以分为文本行级标注和字符级标注（拉丁语系存在单词的还会进行单词级标注）。标注方式通常为文本框+字符转写，基于不同的任务需求，文本框可以为矩形框或者四边形框。

自然场景OCR任务难点

从技术角度出发，自然场景OCR任务存在以下四个难点。

语种众多

不同国家常用语言不同，不同语言的字符形态区别也很大，增加了OCR算法的识别难度。

字体形态复杂

在自然场景中，文字通常为艺术字体，艺术字体的状态与标准字体差异较大；此外，自然场景中文字大小不一、颜色多变等因素更增加了OCR任务的难度。

拍摄角度多样

用户大多会使用手机作为拍摄文字的设备，不同用户拍摄习惯不同，会导致拍摄时的拍摄角度多样，给OCR算法对角度倾斜的鲁棒性提出了挑战。

文字载体多样

自然场景OCR文字载体分布比较丰富，部分载体会造成文字扭曲。例如食品包装经常会发生形变，造成文字的弯曲，增加了OCR任务难度。

数据堂自然场景OCR数据

数据堂针对自然场景OCR任务需求和难点，从数据层面针对性设计了下述数据集，分别介绍如下：

222289张中文自然场景OCR数据

该数据集为中文自然场景OCR数据。在数据采集方面，采集设备为手机及相机；文字载体为常见的商店牌匾、海报、路标、提示语、警示语、包装说明、菜单等；场景分布方面，数据采集于多种室内室外场景。在数据标注方面，对图片中字符进行了行级、单词级和字符级的矩形框+文字转写标注。

数据规模	222289张图像
采集环境	室内、室外
采集多样性	多种场景、多种拍摄角度
采集设备	手机、相机
拍摄角度	仰视、俯视、平视
数据格式	图像为jpg、png、jpeg；标注文档为json
标注内容	行级矩形框标注、行级内容转写
准确率	检测框标注、文本转写准确率>95%

71535张英文自然场景OCR数据

该数据集为英文自然场景OCR数据。在数据采集方面，采集设备为手机、相机和平板电脑；文字载体为常见的商店牌匾、海报、路标、提示语、警示语、包装说明、菜单、建筑物标志等；场景分布方面，该数据采集于多种室内室外场景。在数据标注方面，对图片中字符进行了行级、单词级和字符级矩形框+文字转写标注。

数据规模	71535张图像，每张图像有1-200个单词
采集环境	英国、美国实地商店牌匾、海报、路标、提示语、警示语、包装说明、菜单、建筑物标志等
采集多样性	多种场景、多种拍摄角度、多种光照条件
采集设备	手机、相机、平板电脑
拍摄角度	仰视、俯视、平视
数据格式	图像为jpg；标注文档为json
标注内容	行级、单词级、字符级矩形框或四边形框标注、文本转写
准确率	检测框标注、文本转写准确率>95%

105941张12种语言自然场景OCR数据

该数据集为多国语言自然场景OCR数据。在数据采集方面，采集设备为手机及相机；文字载体为常见的商店牌匾、站牌、海报、车票、路标、漫画、井盖画、提示语、警示语、包装说明、菜单、建筑物标志等；场景分布方面，该数据采集于多种室内室外场景。在数据标注方面，对图片中字符进行了行级四边形框+文字转写标注。

数据规模	105941张图像，包含日语、韩语、印尼语、马来语、越南语、泰语、法语、德语、意大利语、葡萄牙语、俄语、西班牙语
采集环境	商店牌匾、站牌、海报、车票、路标、漫画、井盖画、提示语、警示语、包装说明、菜单、建筑物标志等
采集多样性	12种语言、多种场景、多种拍摄角度（仰视、俯视、平视）
采集设备	手机、相机
数据格式	图像为jpg；标注文档为json
标注内容	行级矩形框标注、行级内容转写
准确率	四边形框顶点偏差不超过5个像素为正确检测，检测框精度、文本转写精度>97%

3506张印地语OCR标注及转写数据

该数据集为印地语OCR数据。在数据采集方面，采集场景包括自然场景、互联网图像和文本图像。采集设备为手机；文字载体为牌匾、包装说明、小广告、菜单、海报等、杂志封面、漫画封面、文本文档等；场景分布方面，该数据采集于多种室内室外场景。在数据标注方面，对图片中行级字符进行行级四边形框+文字转写标注，对于数列文本进行竖列四边形框+文字转写标注。

数据规模	3056张图像，包含自然场景、互联网图像文字、文本图像
采集环境	牌匾、包装说明、小广告、菜单、海报、杂志封面、漫画封面、文本文档等
采集多样性	多种场景、多种角度、多种光照条件
采集设备	手机
拍摄角度	仰视、平视
数据格式	图像为jpg；标注文档为json
标注内容	行级矩形框标注、行级内容转写；竖列四边形标注、竖列内容转写
准确率	四边形框顶点偏差不超过10个像素为正确检测，检测框精度、文本转写精度>97%

4995张越南语OCR标注及转写数据

该数据集为越南语OCR数据。在数据采集方面，采集场景包括自然场景、互联网图像和文本图像。采集设备为手机；文字载体为牌匾、包装说明、小广告、菜单、海报等、杂志封面、漫画封面、文本文档等；场景分布方面，该数据采集于多种室内室外场景。在数据标注方面，对图片中行级字符进行行级四边形框+文字转写标注，对于数列文本进行竖列四边形框+文字转写标注。

数据规模	4995张，包含自然场景、互联网图像文字、文本图像
采集环境	牌匾、包装说明、小广告、菜单、海报、杂志封面、漫画封面、文本文档等
采集多样性	多种场景、多种角度、多种光照条件
采集设备	手机
拍摄角度	仰视、平视
数据格式	图像为jpg；标注文档为json
标注内容	行级矩形框标注、行级内容转写；竖列四边形标注、竖列内容转写
准确率	四边形框顶点偏差不超过10个像素为正确检测，检测框精度、文本转写精度>97%

依托自身的数据优势以及丰富的数据处理经验，数据堂推出的自然场景多国语言系列OCR标注及转写数据，为自然场景OCR技术应用的广泛落地提供助力。

阅读更多内容

再获权威认可！数据堂荣获国家级专精特新“小巨人”企业称号！

数据堂凭借在人工智能数据领域多年的深耕和积累，以突出的技术创新能力和出色的服务质量等方面的优势脱颖而出，成功入选第四批国家级专精特新“小巨人”企业名单。

智能座舱行为识别数据解决方案，助力打造第三空间新体验

智能座舱关注车内感知，通过在车内安装摄像头感知驾驶员和乘客的行为以及车内状况。座舱行为识别任务旨在识别车辆座舱中驾驶员及乘客的行为，改善驾乘体验提供技术支持，以提供驾驶员和乘客更好的驾乘体验和更安全的行车保障。

数据推荐 | 自然场景OCR文字识别数据集一览

自然场景OCR任务介绍

自然场景OCR数据标注方式

自然场景OCR任务难点

数据堂自然场景OCR数据

222289张中文自然场景OCR数据

71535张英文自然场景OCR数据

105941张12种语言自然场景OCR数据

3506张印地语OCR标注及转写数据

4995张越南语OCR标注及转写数据

上一篇

再获权威认可！数据堂荣获国家级专精特新“小巨人”企业称号！

下一篇

智能座舱行为识别数据解决方案，助力打造第三空间新体验

数据推荐 | 自然场景OCR文字识别数据集一览

自然场景OCR任务介绍

自然场景OCR数据标注方式

自然场景OCR任务难点

数据堂自然场景OCR数据

222289张中文自然场景OCR数据

71535张英文自然场景OCR数据

105941张12种语言自然场景OCR数据

3506张印地语OCR标注及转写数据

4995张越南语OCR标注及转写数据

近期内容

数据驱动进化：AI Agent如何重构手机交互范式？

垂域大模型时代：专业数据铸就行业智能底座

案例分享|高质量数据服务赋能智慧医疗3.0时代

上一篇

再获权威认可！数据堂荣获国家级专精特新“小巨人”企业称号！

下一篇

智能座舱行为识别数据解决方案，助力打造第三空间新体验