426,687张自然场景&文档拍照场景&电子场景OCR采集数据

426,687张自然场景&文档拍照场景&电子场景OCR采集数据包括繁体中文、日语、韩语、印尼语、马来语、泰语、越南语、波兰语等20种语言。采集多样性包括多种自然场景、多种拍摄角度。本套数据可用于多国语言OCR任务。

数据规格

数据规模
426,687张
语种分布
繁体中文、日语、韩语、印尼语、马来语、泰语、越南语、法语、德语、意大利语、葡萄牙语、俄语、西班牙语、阿拉伯语、土耳其语、波兰语、荷兰语、希腊语、捷克语、菲律宾语(塔加洛语)
繁体中文、日语、韩语、印尼语、马来语、泰语、越南语、法语、德语、意大利语、葡萄牙语、俄语、西班牙语、阿拉伯语、土耳其语、波兰语、荷兰语、希腊语、捷克语、菲律宾语(塔加洛语)
采集环境
自然场景:标语、海报、警示语、路标、食品包装、广告牌、站牌和招牌等 文档拍照场景:打印文档、卡片、票据、书籍报纸等 电子场景: 电脑截图、手机截图、电子文档
采集多样性
多种数据类型、多种拍摄角度、多语种
采集设备
手机、电脑
拍摄角度
仰视、俯视、平视
数据格式
图片格式为.jpg等通用格式
准确率
按照采集要求,采集准确率不低于95%

样例展示