cn
数据解决方案
请输入姓名
手机号码格式错误
请输入联系电话
请输入公司名称
请输入正确的工作邮箱
请输入数据需求
提交成功!感谢您支持数据堂。
填写格式错误请重新填写
确定
数据需求不能小于5个字且不能为纯数字
https://www.datatang.com
https://www.datatang.ai
m.datatang.ai
作者:数据堂 发布时间:2023-03-30
文字识别(optical character recognition,OCR)是指例如扫描仪或数码相机的电子设备检查图像中的字符,然后用字符识别方法将形状翻译成计算机文字的任务。OCR应用场景比较丰富,包括自然场景、手写场景、文档识别等。作为OCR任务中应用最广泛、具备巨大市场需求的场景之一是自然场景OCR。自然场景是指人们日常生活涉及到的OCR场景,文字载体通常可以为商店牌匾、站牌、海报、路标、漫画、井盖画、提示语、警示语、包装说明、菜单、建筑物标志等。
按照不同的标注精细程度,通常可以分为文本行级标注和字符级标注(拉丁语系存在单词的还会进行单词级标注)。标注方式通常为文本框+字符转写,基于不同的任务需求,文本框可以为矩形框或者四边形框。
从技术角度出发,自然场景OCR任务存在以下四个难点。
不同国家常用语言不同,不同语言的字符形态区别也很大,增加了OCR算法的识别难度。
在自然场景中,文字通常为艺术字体,艺术字体的状态与标准字体差异较大;此外,自然场景中文字大小不一、颜色多变等因素更增加了OCR任务的难度。
用户大多会使用手机作为拍摄文字的设备,不同用户拍摄习惯不同,会导致拍摄时的拍摄角度多样,给OCR算法对角度倾斜的鲁棒性提出了挑战。
自然场景OCR文字载体分布比较丰富,部分载体会造成文字扭曲。例如食品包装经常会发生形变,造成文字的弯曲,增加了OCR任务难度。
数据堂针对自然场景OCR任务需求和难点,从数据层面针对性设计了下述数据集,分别介绍如下:
数据规模 |
222289张图像 |
采集环境 |
室内、室外 |
采集多样性 |
多种场景、多种拍摄角度 |
采集设备 |
手机、相机 |
拍摄角度 |
仰视、俯视、平视 |
数据格式 | 图像为jpg、png、jpeg;标注文档为json |
标注内容 |
行级矩形框标注、行级内容转写 |
准确率 |
检测框标注、文本转写准确率>95% |
数据规模 |
71535张图像,每张图像有1-200个单词 |
采集环境 |
英国、美国实地商店牌匾、海报、路标、提示语、警示语、包装说明、菜单、建筑物标志等 |
采集多样性 |
多种场景、多种拍摄角度、多种光照条件 |
采集设备 |
手机、相机、平板电脑 |
拍摄角度 |
仰视、俯视、平视 |
数据格式 | 图像为jpg;标注文档为json |
标注内容 |
行级、单词级、字符级矩形框或四边形框标注、文本转写 |
准确率 |
检测框标注、文本转写准确率>95% |
数据规模 |
105941张图像,包含日语、韩语、印尼语、马来语、越南语、泰语、法语、德语、意大利语、葡萄牙语、俄语、西班牙语 |
采集环境 |
商店牌匾、站牌、海报、车票、路标、漫画、井盖画、提示语、警示语、包装说明、菜单、建筑物标志等 |
采集多样性 |
12种语言、多种场景、多种拍摄角度(仰视、俯视、平视) |
采集设备 |
手机、相机 |
数据格式 | 图像为jpg;标注文档为json |
标注内容 |
行级矩形框标注、行级内容转写 |
准确率 |
四边形框顶点偏差不超过5个像素为正确检测,检测框精度、文本转写精度>97% |
数据规模 |
3056张图像,包含自然场景、互联网图像文字、文本图像 |
采集环境 |
牌匾、包装说明、小广告、菜单、海报、杂志封面、漫画封面、文本文档等 |
采集多样性 |
多种场景、多种角度、多种光照条件 |
采集设备 |
手机 |
拍摄角度 |
仰视、平视 |
数据格式 | 图像为jpg;标注文档为json |
标注内容 |
行级矩形框标注、行级内容转写;竖列四边形标注、竖列内容转写 |
准确率 |
四边形框顶点偏差不超过10个像素为正确检测,检测框精度、文本转写精度>97% |
该数据集为越南语OCR数据。在数据采集方面,采集场景包括自然场景、互联网图像和文本图像。采集设备为手机;文字载体为牌匾、包装说明、小广告、菜单、海报等、杂志封面、漫画封面、文本文档等;场景分布方面,该数据采集于多种室内室外场景。在数据标注方面,对图片中行级字符进行行级四边形框+文字转写标注,对于数列文本进行竖列四边形框+文字转写标注。
数据规模 |
4995张,包含自然场景、互联网图像文字、文本图像 |
采集环境 |
牌匾、包装说明、小广告、菜单、海报、杂志封面、漫画封面、文本文档等 |
采集多样性 |
多种场景、多种角度、多种光照条件 |
采集设备 |
手机 |
拍摄角度 |
仰视、平视 |
数据格式 | 图像为jpg;标注文档为json |
标注内容 |
行级矩形框标注、行级内容转写;竖列四边形标注、竖列内容转写 |
准确率 |
四边形框顶点偏差不超过10个像素为正确检测,检测框精度、文本转写精度>97% |
依托自身的数据优势以及丰富的数据处理经验,数据堂推出的自然场景多国语言系列OCR标注及转写数据,为自然场景OCR技术应用的广泛落地提供助力。