cn
数据解决方案
请输入姓名
手机号码格式错误
请输入联系电话
请输入公司名称
请输入正确的工作邮箱
请输入数据需求
提交成功!感谢您支持数据堂。
填写格式错误请重新填写
确定
数据需求不能小于5个字且不能为纯数字
https://www.datatang.com
https://www.datatang.ai
m.datatang.ai
作者:数据堂 发布时间:2023-03-30
光学字符识别技术,即OCR。OCR是指电子设备,例如扫描仪或相机检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别的方法将形状翻译成计算机文字的过程。
OCR的作用是检测图像中的文字区域以及识别文字内容,它在很多场合可替代键盘完成高速文字录入任务。
OCR技术的应用场景十分广泛,以下是几个应用较为成熟的领域:
·远程身份认证:结合OCR和人脸识别技术,实现用户证件信息的自动录入,并完成用户身份验证。应用于金融保险、社保、O2O等行业,有效控制业务风险。
·内容审核与监管:自动识别图片、视频中的文字内容,及时发现涉黄、涉暴、政治敏感、恶意广告等不合规内容,规避业务风险,大幅节约人工审核成本。
·纸质文档票据电子化:通过OCR实现纸质文档资料、票据、表格的自动识别和录入,减少人工录入成本,提高输入效率。
自然环境下的OCR要面临、要解决的问题还是相当多的,例如背景复杂、加盖印章干扰叠加、图像对比度低、污迹和磨损、字体种类繁多、印刷受墨多寡等情况。
基于深度学习的技术而言,训练数据的数量很大程度上影响了技术效果,提升训练数据的数量和质量成为解决上述问题的根本途径。
为了提升OCR识别和转写的准确度,不是少平台开发了OCR标注和转写数据集,以下是五个常用的OCR数据库网络资源。
·NIST数据库
美国国家科学研究院出版了3600位作者的笔迹,其中包括80万个字符图像。
网址:
https://catalog.data.gov/dataset/nist-handprinted-forms-and-characters-nist-special-database-19
·MNIST数据库
原始NIST数据的子集,具有60,000个手写数字示例的训练集。
网址:
https://yann.lecun.com/exdb/mnist/
·阿拉伯语印刷文本
包含113,284个单词的词典,并使用10种阿拉伯字体。
网址:
https://diuf.unifr.ch/main/diva/APTI/
·Stanford OCR
包含由Stanford发布的MIT Spoken Language Systems Group收集的手写单词数据集。
网址:
https://ai.stanford.edu/~btaskar/ocr/
·Chars74K数据
包含英文和卡纳达语数字的74K图像。
网址:https://www.ee.surrey.ac.uk/CVSSP/demos/chars74k/
沉淀十余年数据处理经验,数据堂在句法标注、事件标注等方面也积累了自己OCR标注和转写方面独特的数据优势,以下是数据堂研制的OCR数据:
数据堂自有版权OCR数据 |
|
1 |
4,002张互联网图像OCR数据 |
2 |
105,959张12种语言自然场景OCR数据 |
3 |
14,980张8种语言PPT OCR数据 |
4 |
3,506张印地语OCR标注及转写数据 |
5 |
4,995张越南语OCR标注及转写数据 |
欢迎联系客服小堂获取样例数据 ~