cn

数据解决方案

请输入姓名

手机号码格式错误

请输入联系电话

请输入公司名称

请输入正确的工作邮箱

请输入数据需求

提交成功!感谢您支持数据堂。

填写格式错误请重新填写

确定

数据需求不能小于5个字且不能为纯数字

https://www.datatang.com

https://www.datatang.ai

m.datatang.ai

联合主办

长短视频多语种多模态识别竞赛_数据竞赛与活动_数据堂_竞赛背景

竞赛背景

Challenge background

2021年第十六届全国人机语音通讯学术会议(National Conference on Man-Machine Speech Communication,NCMMSC2021)将于2021年10月15-18日在江苏徐州举行。本次会议由中国中文信息学会和中国计算机学会联合主办。

针对本次会议,由腾讯科技ASR&OCR oteam联合清华大学、西北工业大学、数据堂、中国计算机学会语音对话与听觉专委会发起,围绕时下在工业界最为关注的三类媒体形式——长视频、短视频、直播场景进行多模态识别竞赛。

本次比赛由易到难,Task1将关注模型场景适配下长短视频及直播中汉语关键词的检测问题;Task2则扩展到Task1的多语种和多方言关键词场景;Task3会根据视频画面里的字幕信息和语音识别信息。共同打造SOTA的长、短视频、直播场景的字幕语音内容识别多模态工业级解决方案。

Task1

汉语长短视频直播语音关键词

Video Keyword Wakeup Challenge, VKW

竞赛介绍

可自定义关键词唤醒能够利用各类解码策略的优化,快速检测出长短音视频和智能设备中的关键词(唤醒词),广泛应用在设备自定义解锁和唤醒、各类救护、火灾等事件报警、命令识别、语音内容的检索和分析等任务中。

Task1 汉语长短视频直播语音关键词(Video Keyword Wakeup Challenge)比赛旨在检验业界利用朗读数据等常规数据公司可获取的大规模数据构建任意自定义关键词检测系统的能力。提供少量可供微调的真实长短视频及直播数据,检验场景失配下自定义关键词检测系统的鲁棒性和泛化性。

赛道设置

指定数据

参赛日程

奖项设置

受限赛道

一等奖(1名)

奖金8,000人民币

二等奖(1名)

奖金3,000人民币

三等奖(1名)

奖金1,500人民币

非受限赛道

一等奖(1名)

奖金8,000人民币

二等奖(1名)

奖金3,000人民币

三等奖(1名)

奖金1,500人民币

注:奖金金额均为税前金额

报名方式

竞赛指导委员会

黄申

腾讯科技 ASR oteam

吕志强

腾讯科技 ASR oteam

张卫强

清华大学

谢磊

西北工业大学

王大亮

数据堂(北京)科技股份有限公司

注:排名不分先后

Task2

多语种多方言长短视频直播语音关键词

Low-resouce Video Keyword Wakeup Challenge, LVKW

竞赛介绍

我国是一个多语言、多方言的国家,在长视频、短视频和直播场景中,下沉场景时语言的当地化现象非常明显,而通用的设备关键词唤醒往往只支持汉语。如何在多语言、多汉语方言场景下,唤醒出各场景中的自定义关键词,是本任务的研究方向。本任务主要包括蒙、藏、维、哈、朝、彝、壮等少数民族语言,西南、中原等各类官话,晋语、吴语、徽语、湘语、粤语、赣语、闽南语及客家话等汉语方言。

比赛详细信息稍后发布,敬请期待......

Task3

汉语长短视频直播字幕ASR&OCR

Video ASR OCR Challenge, VAO

竞赛介绍

在长短视频、直播等视频场景中,通常会伴有已经制作好的视频字幕、人脸存在时的唇语等辅助信息。如何利用其他模态的辅助信息以提升ASR识别率,尤其是背景音乐、嘈杂噪声等低信噪比情况下,提升ASR的性能是本任务的关注点;反过来,虽然OCR比ASR识别效果更加准确,但OCR由于画面的复杂,冗余信息多(如标题、台标等),对于字幕部分的提取和识别也存在较大的困难。如何利用ASR等语音信息,指导OCR进行更好的输出,使得用户“看到”真正重要的口语内容信息,使得多模态内容文字识别率互为促进和提升,是本任务的研究方向。

比赛详细信息稍后发布,敬请期待......

反作弊声明

  • 参与者禁止提交多次报名,经发现将取消成绩并严肃处理。

  • 参与者禁止在指定考核技术能力的范围外利用规则漏洞或技术漏洞、额外数据等不良途径提高成绩排名,经发现将取消成绩并严肃处理。

竞赛解释权归数据堂(北京)科技股份有限公司所有

数据堂_datatang