数据竞赛 | 第二届多语种对话语音语言模型(MLC-SLM)挑战赛正式开启
近年来,大语言模型的快速发展推动了语音大语言模型的进步,使得语音识别与理解能够实现统一建模。然而,该领域的发展在很大程度上依赖于高质量的真实世界多语言对话语音数据,这类数据能够真实反映人类自然交流的复杂性,是推动语音大语言模型向更深层次发展的核心支撑。
作为Interspeech 2025的卫星活动,第一届MLC-SLM挑战赛已圆满落幕并取得显著成功,不仅为行业提供了丰富的实践参考,更积累了宝贵的经验。
从首届赛事的成果中我们也能清晰地看到,语音大语言模型在语音识别任务上已取得较强性能,以转写为核心的建模问题在很大程度上得到解决,但说话人日志仍是一个关键的开放性难题。在复杂的多语言和对话场景中,说话人日志的性能仍受到明显限制,这也意味着行业的进一步突破需要从单纯提升转写准确率,转向对对话结构和语音内容进行更深层次的建模。
赛事亮点:全面升级,更具价值
在语种与口音覆盖上,本届赛事实现了全面拓展,更贴合全球多语言交流的真实场景。上一届挑战赛已发布近1500小时的对话语音数据,涵盖英语、法语、德语等11种语种,其中英语数据约500小时,包含多个地区的口音。在此基础上,第二届赛事新增3种全新语种——他加禄语(tl)、乌尔都语(ur)和土耳其语(tr),同时加入加拿大法语、墨西哥西班牙语和巴西葡萄牙语,进一步丰富数据的多样性与实用性。
在任务设置上,本届赛事更具挑战性,精准聚焦行业核心难题。一方面,将继续推进上一届中尚未充分解决的语音日志与识别任务,贴合真实场景中无先验信息的应用需求。另一方面,将进一步探索语音大语言模型在多语言对话理解中的潜力,重点关注声学与语义信息的联合建模与处理。
同时,本届赛事坚持学术与实践相结合,全力赋能成果转化。除了挑战赛系统描述的提交外,我们鼓励所有参赛队伍提交展示创新成果、实际案例研究及前瞻性想法的研究论文,涵盖新型架构与算法、音频数据处理流程、自然且富有情感的语音生成、利用多轮对话历史提升技术效果、评估技术与基准、新数据集创建等多个重点方向,助力技术成果的落地与交流。此外,赛事将继续搭建全球技术交流平台,促进不同国家、不同团队的经验分享与深度合作,推动整个行业共同进步。
赛事详细信息:清晰指引,便捷参与
为方便全球科研团队、技术从业者参与,现将本次挑战赛的详细信息明确如下:
任务一为多语言对话语音日志与识别,目标是开发一套能够同时实现说话人日志(识别谁在何时发言)和语音识别(将语音转写为文本)的系统,性能将依据说话人分割错误率(DER)以及拼接式最小排列词错误率或字符错误率(tcpWER或tcpCER)进行评估,最终将根据tcpWER或tcpCER对提交结果进行排名。
任务二为多语言对话语音理解,目标是开发能够实现多语言对话声学理解与语义理解的系统,将通过选择题的形式,评估系统对整个对话内容的理解能力。
重要时间节点(AOE时间)
组织团队:专业护航,权威保障
本次赛事由一支兼具专业性与行业影响力的团队全程组织护航,确保赛事公平、高效开展。核心组织者包括西北工业大学谢磊、穆秉甡、林振楠,南京大学王帅、薛浏蒙,南洋理工大学Eng Siong Chng、刘和鑫,台湾大学李宏毅,上海交通大学陈谐,欧洲语言资源协会(ELRA)Khalid Choukri,数据堂丰强泽、王大亮,华为技术有限公司肖龙帅。这些来自知名高校、龙头企业和行业协会的专家学者,将以专业的视角全程指导赛事开展,保障赛事的专业性与权威性。
诚挚邀请:共赴盛宴,共促发展
第二届MLC-SLM挑战赛的开启,既是对首届赛事成果的延续,更是对多语言语音大语言模型领域的一次全新探索与推动。在这里,你可以展示自己的技术成果,与全球同行交流探讨,攻克行业核心难题,助力多语言语音技术的创新发展。在此,我们诚邀全球科研团队、技术从业者积极参与,共赴这场技术盛宴,共促行业高质量发展。
报名方式(点击即可报名):
特别提醒,本次竞赛相关数据将于4月10日在官网上线,敬请大家期待。此外,本次赛事也热烈欢迎各类企业、机构提供赞助支持,携手搭建更优质的技术交流与成果展示平台,共同推动多语言语音大语言模型领域的进步与突破。
欲了解更多竞赛信息,请点击☛竞赛官网链接,或扫描下方二维码加入官方竞赛群。
聚焦语音前沿,角逐技术巅峰!