cn

数据解决方案

请输入姓名

手机号码格式错误

请输入联系电话

请输入公司名称

请输入正确的工作邮箱

请输入数据需求

提交成功!感谢您支持数据堂。

填写格式错误请重新填写

确定

数据需求不能小于5个字且不能为纯数字

https://www.datatang.com

https://www.datatang.ai

m.datatang.ai

分享 | AESRC2020口音英语语音识别挑战赛精彩报告集锦

作者:数据堂 发布时间:2023-03-30

12月5日,2020AESRC口音英语语音识别挑战赛线上技术交流会圆满结束。会议上,来自学术界和企业界的多位代表发表了特邀报告,参赛团队代表也就其参赛方案进行了总结分享,接下来就和小编一起回顾一下大佬们的精彩发言吧!


特邀报告

李锦宇:构建工业级流式端到端语音识别模型

微软Partner Applied Scientist、技术负责人Jinyu Li(李锦宇)进行了主题为“构建工业级流式端到端语音识别模型”(Developing Streaming End-to-End Models for Automatic Speech Recognition in Industry)的特邀报告。Li指出,语音社区已经呈现出从基于深度神经网络的混合建模向用于自动语音识别(ASR)的端到端(E2E)建模转变的重要趋势。随着E2E模型对数据的需求越来越大,构建行业规模的ASR系统为E2E模型技术开发提供了良好的平台。Li还分享了微软开发高精度、低延迟流媒体RNN-T模型的进程。兼顾高精度和低Transformer模型运行成本,微软团队设计了一种流线型低延迟和低成本的Transformer传感器,Li介绍,该传感器采取了“masking is all you need”策略。


谢磊:赛事总结报告

西北工业大学教授谢磊进行了2020AESRC口音英语语音识别竞赛的总结报告。谢磊对大赛的背景、数据集、参与和提交情况、赛道设置和规则、和比赛结果进行了总结分析。


Shinji Watanabe:通过非自回归神经端到端建模简化语音识别

约翰霍普金斯大学副研究员Shinji Watanabe进行了主题为“通过非自回归神经端到端建模简化语音识别”(Simplifying Automatic Speech Recognition with Non-Autoregressive Neural End-to-End Modeling)的特邀报告。首先,Shinji介绍了与基于隐马尔可夫模型的方法相比,基于单一神经结构的端到端神经模型简化ASR系统的方法。然后,Shinji介绍了ASR推理算法的简化与非自回归神经端到端的建模。


丰强泽:数据堂口音英语语音识别产品

数据堂联合创始人丰强泽博士对口音英语语音识别产品进行了介绍。丰强泽对数据堂公司的基本概况和数据产品、定制数据服务和私有化数据工厂部署三大主要服务进行了介绍。现阶段数据堂在口音英语数据产品方面有三个主要的努力方向:各国儿童英语数据、自然对话风格英语数据和百万单词级的英文发音词典。


参赛团队技术分享

腾讯&约翰霍普金斯:其团队成员详细介绍了他们使用的Wav2vec模型。Wav2vec模型具有适合低资源任务、能够与其他技术相结合的优势。腾讯&约翰霍普金斯团队指出该模型与Transformer ASR在层数、预训练等方面存在区别,并强调了预训练和数据增强的重要性。


思必驰:思必驰团队成员就其第一赛道方案的模型结构、数据增强、PPG特征、开发集实验结果测试集结果和方案创新点进行了分享和总结。思必驰团队根据其在第二赛道积累的经验指出,常规数据增强、基于TTS的口音识别训练数据生成方法、基于口音embedding的模型自适应、更好地初始化+多任务训练+重打分是其第二赛道参赛方案的创新点。


同花顺:同花顺团队成员分享了他们在两个赛道方案中的数据使用策略、模型结构和训练策略。针对Track1,该团队认为加噪、加混响和拼接剪裁的数据处理以及ASR预训练模型是提升模型训练结果行之有效的方法。总结Track2的经验,同花顺的团队认为多任务联合训练、提升预训练模型效果是非常有帮助的。


清华大学:在Track2中,清华大学团队使用Librispeech数据进行ASR模型(包括语言模型)的预训练,使用官方提供的口音英语数据进行Finetune。为了提高系统的鲁棒性,该团队对系统进行了第二次Finetune,学习率为1.0。


浙江大学:浙江大学团队获得了第一赛道的第三名,该团队就其方案对音频场景分类、说话人分类、口音分类进行了总结分享。


本次技术交流会提供了一个分享经验、启发思维的平台。人工智能产业的参与者应努力学习,加强研判,协同创新,稳步推进,用创新创造推动数据资源、数字能源的合理使用,以关键核心技术为主攻方向,打牢新一代人工智能发展的基础。

点击链接https://pan.baidu.com/s/1CWTqlhppyzIkMeA2jcUcM,即可获取报告资料,网盘提取码为12gw。
口音英语语音识别技术研讨会暨挑战赛-数据堂