cn
数据解决方案
请输入姓名
手机号码格式错误
请输入联系电话
请输入公司名称
请输入正确的工作邮箱
请输入数据需求
提交成功!感谢您支持数据堂。
填写格式错误请重新填写
确定
数据需求不能小于5个字且不能为纯数字
https://www.datatang.com
https://www.datatang.ai
m.datatang.ai
近年来,随着短视频、直播等基于媒体的应用的快速兴起,视频数据的广泛传播导致用户生成内容显著增加。各种各样的创作平台和模式已经出现,媒体发布标准越来越平民化,导致各种长短视频和直播的声学场景更加复杂和动态。各种场景下的视频字幕识别和语音识别一直是研究人员相当关注的问题。准确识别和理解各类视频内容的方法的发展已成为下游应用程序中不可或缺的工具。为了更好的促进字幕识别技术的发展,我们提出了探索整合视频和音频模式优势的任务,专注于使用视觉和音频模式从视频中提取字幕。
视频通过视觉和音频等多模态传递丰富的信息。融合多模态信息识别视频中的内容是其中一项具有挑战和价值的研究课题。
字幕是视频数据中最重要的文本信息之一,访谈节目或电视剧等视频一般会把人们交谈的内容以视觉字幕的形式呈现出来。近年来,字幕识别被广泛应用于视频推荐、检索和理解系统中,但大家一般会通过语音识别或OCR识别等单一模态的识别来获得文本形式的字幕信息。为了更好的促进字幕识别技术的发展,我们将在ICPR2022举办多模态的字幕识别竞赛,欢迎大家报名参加!
在这个任务中,只提供音频的标注信息。参赛者需设计一个字幕识别的OCR模型。参赛者可以使用指定的业界开源数据集对OCR模型进行预训练,然后通过音频模态提供的字幕信息微调模型。
提交的结果将在视觉模态的测试集上使用CER指标的结果进行排名。
在这个任务中,仅提供视觉模态的字幕对应的标注信息,参赛者需要设计一个识别语音内容的ASR模型。与赛道一相似,参赛者可以使用指定的开源语音数据集训练一个初始的ASR模型,然后将视觉模态的字幕信息作为弱监督的语音标注,用于ASR的模型的进一步微调。
最终提交的结果将在视频对应的语音测试集上根据CER指标进行结果排名。
在这个任务中,我们将提供音频模态和视觉模态标注的字幕信息。参赛者需利用这两个模态的字幕信息设计一个字幕识别的模型。与赛道一,二相同,参赛允许使用公开数据集进行预训练,然后对模型进行微调。
提交结果将在同时具备视觉和音频模态的测试集上使用CER指标的结果进行排名。
我们提供了一个包含75小时视频内容的视频数据集,其中50/5/20小时分别用于训练、验证和测试。其中训练集和验证集提供了视觉字幕的弱标注和语音字幕的真实标注,测试集为真实标注。此外,还提供了额外的200小时未标注的视频内容作为无监督训练资源。
注册报名
2022.03.07训练集公布
2开发阶段
2022.03.12-2022.04.22验证集公布
4评测阶段
2022.04.22-2022.05.07结果提交截止
6方法描述截止
2022.05.12评测结果公布
8注:奖金金额均为税前金额
比赛信息:https://icprmsr.github.io/
联系邮箱:lattehuang@tencent.com