INTERSPEECH2025 多语言会话语音语言模型研讨论会

背景

目前，大语言模型（LLMs）在各种下游任务中均展现出卓越的性能，已成为语言理解和文本生成等任务的基础模型。近年来，研究者们开始关注如何将 LLMs 应用于语音和音频处理任务，如自动语音识别 (ASR)、音频字幕生成以及语音对话系统等新兴领域。

然而，构建强大的基于 LLM的语音对话系统，在很大程度上依赖于真实世界的对话语音数据。这些数据涵盖了人类语音交流的多种复杂场景，包括自然停顿、中断、说话者重叠和多样化的对话风格。此类数据的稀缺性，尤其是在多语种环境中，极大地限制了该领域的研究和发展。

真实对话语音数据不仅对于技术进步至关重要，还在构建能够理解多语种和长上下文内容的人工智能系统方面发挥关键作用。对于下一代人机交互系统而言，语音对话是核心的沟通方式，高质量的对话语音数据对于提升其准确性和自然度尤为重要。

因此，本次挑战赛/研讨会旨在通过发起多语种对话语音语言模型（MLC-SLM）的挑战，以及发布真实的多语种对话语音数据集来促进该方向的研究。

任务设定与评估

本次挑战赛包含两个任务，均要求参赛者探索基于 LLM 的语音模型的开发：

任务 I：多语种对话语音识别

目标：开发基于 LLM 的多语种 ASR 模型。
参赛者将获得每段对话的真实时间戳标注及说话者标签用于切分语音片段。
该任务的重点是优化多语种对话环境下的语音识别准确率。

任务 II：多语种对话语音日志与识别

目标：开发一个同时进行说话者日志（即识别谁在何时说话），又能进行语音识别（将语音转换为文本）的系统。
评估过程中不提供任何先验信息，如真实时间戳标注、预先切分的语音片段、说话者标签等。
该任务可以使用基于级联系统或端到端系统的方法。

对于任务 I，系统性能将基于不同语言的词错误率（WER）或字符错误率（CER）进行评估。

对于任务 II，性能将基于说话人日志错误率（DER）以及连接最小排列词错误率（tcpWER）或字符错误率（tcpCER）进行评估。DER用于确定在参考标注和日志结果之间的最佳说话人排列。然后，将同一说话人识别结果和参考进行连接，以计算tcpWER或tcpCER。所有提交将根据tcpWER或tcpCER进行排名。

重要日期（AOT 时间）

2025 年 3 月 10 日：注册开放

2025 年 3 月 15 日：训练数据发布

2025 年 4 月 1 日：开发集和基线系统发布

2025 年 5 月 15 日：评估集发布及 Leaderboard开放

2025 年 5 月 30 日：Leaderboard冻结，论文提交系统（CMT）开放

2025 年 6 月 15 日：论文提交截止

2025 年 7 月 1 日：论文录用通知

2025 年 8 月 22 日：研讨会日期

数据集描述

训练集

训练集（Train）包含11 种语言：英语（en）、法语（fr）、德语（de）、意大利语（it）、葡萄牙语（pt）、西班牙语（es）、日语（jp）、韩语（ko）、俄语（ru）、泰语（th）、越南语（vi）。

每段录音均由两位说话者就随机分配的主题进行对话。

对话自然流畅，说话者就每个主题进行有意义的对话。

使用 iPhone 等设备在安静的室内环境中录制。

每段录音都将为语音识别和说话者日志系统的开发提供真实时间戳标注和说话者标签。

任务I和任务II共享相同的训练集。

英语数据集包含来自不同地区的约 500 小时录音，包括美国、英国、澳大利亚、印度和菲律宾英语。其他语言各贡献约 100 小时，总共约 1500 小时的多语言对话语音数据。

英语500覆盖5个不同口音说英语，发音人来自美国、英国、菲律宾、澳大利亚、印度。性别、年龄多样，自然对话风格，标注词准确率98%

100美式英语16K

100英式英语16K

100菲律宾英语16K

100澳大利亚英语16K

100印度英语16K

法语10016K手机录制，录音人选择熟悉的几个话题，分别录制一段流畅自然的对话。发音人性别、年龄多样，标注词准确率98%

德语10016K手机录制，录音人选择熟悉的几个话题，分别录制一段流畅自然的对话。发音人性别、年龄多样，标注词准确率98%

意大利语10016K手机录制，录音人选择熟悉的几个话题，分别录制一段流畅自然的对话。发音人性别、年龄多样，标注词准确率98%

日语10016K手机录制，录音人选择熟悉的几个话题，分别录制一段流畅自然的对话。发音人性别、年龄多样，标注句准确率95%

韩语10016K手机录制，录音人选择熟悉的几个话题，分别录制一段流畅自然的对话。发音人性别、年龄多样，标注句准确率95%

欧洲葡萄牙语10016K手机录制，录音人选择熟悉的几个话题，分别录制一段流畅自然的对话。发音人性别、年龄多样，标注词准确率98%

俄语10016K手机录制，录音人选择熟悉的几个话题，分别录制一段流畅自然的对话。发音人性别、年龄多样，标注词准确率98%

西班牙西班牙语10016K手机录制，录音人选择熟悉的几个话题，分别录制一段流畅自然的对话。发音人性别、年龄多样，标注词准确率98%

泰语10016K手机录制，录音人选择熟悉的几个话题，分别录制一段流畅自然的对话。发音人性别、年龄多样，标注词准确率97%

越南语10016K手机录制，录音人选择熟悉的几个话题，分别录制一段流畅自然的对话。发音人性别、年龄多样，标注词准确率98%

开发集

开发集 (Dev) 与训练集设置相同，但每种语言包含约 4 小时的录音。任务I和任务II共享相同的开发集。

评估集

每个任务使用不同的评估集，分别指定为 Eval_1 和 Eval_2。具体来说，Eval_1 包括真实时间戳标注和说话者标签，使用 WER/CER 进行评估。Eval_2 不提供时间戳或说话者标签，因此需要使用说话者日志系统在识别之前对较长的录音进行分段。

参与者可以通过签署数据使用协议并提交至报名表单来访问数据集。提交后，数据下载链接将发送到您的电子邮件。

规则

所有参与者必须遵守以下规则。

外部资源使用：对于任务I 和任务II，允许使用外部数据集和预训练模型（包括语音基础模型和大语言模型）。所有使用的外部资源必须是公开可获取的，并且在最终系统报告中应明确标明。

数据增强：允许在发布的训练集上进行数据增强，可能包括但不限于添加噪声或混响、速度扰动和音调修改。

禁止使用评估集：严禁以任何形式使用评估集。这包括但不限于使用评估集进行微调或训练模型。

多系统融合：参与者不得在任务I和任务II中使用系统融合。提交的结果必须来自单个模型，而不是通过结果融合得出。

提交要求：所有参赛者必须提交其系统。提交内容包括最终识别结果、模型以及能够直接进行推理并获得最终结果的Docker容器等文件。详细的提交说明将在基线系统发布后提供。请注意，我们将公开那些确认参与但未提交任何文件的团队及其所属机构的名称。

主办方解释权：主办方对本规则拥有最终解释权，特殊情况由主办方酌情协调解释。

其他主题

除了挑战系统内容外，还鼓励参与者提交创新发和前瞻性研究论文。主题包括但不限于：

新颖的架构和算法：开发用于训练语音语言模型的新架构和算法。

音频数据处理管线：创新音频数据处理流程，促进多样化互联网数据的收集，以便训练语音语言模型。

自然且情感丰富的语音生成：设计用于生成更加自然且富有情感表达的对话语音的算法，提升对话系统的表现。

利用多轮对话历史：利用多轮对话历史来增强识别和分离结果的技术。

评估技术和基准：评估语音语言模型的创新评估技术或基准。

新数据集：创建用于训练语音和音频语言模型的新数据集，包括真实数据和合成数据。

数据访问和使用

已注册的参与者将有权访问训练和测试数据集。他们必须签署数据使用协议（见下文）、同意保密并遵守数据保护协议。数据集仅用于本次研讨会竞赛，严禁重新分发或任何其他用途。参与者有责任保护数据免受未经授权的访问。

数据许可协议
Data use agreement- nexdata

注册说明

参与者需进行注册。请上传已签署的数据使用协议并填写注册表单（谷歌表单）或（腾讯表单）。挑战赛将于2025年3月10日开始。

如需了解其他与注册相关的信息，请发送邮件至:mlc-slmw@nexdata.ai

联系方式

邮件地址: mlc-slmw@nexdata.ai

Slack频道: https://join.slack.com/t/mlc-slm-challenge/shared_invite/zt-314nfsmhz-QjOJjhjK3OHYUtJyBRtPxA

微信群:

基线系统

Github/MLC-SLM-Baseline

排行榜提交

即将发布。

奖项

奖金总额： 20,000美金

本次比赛优秀团队奖金（每项任务）：

第一名：5,000 美金

第二名：3,000 美金

第三名：2,000 美金

地点

荷兰鹿特丹，鹿特丹阿霍伊会议中心

参加研讨会的注册费

非会员注册费：60欧元

非会员学生注册费：45欧元

ISCA会员注册费：50欧元

ISCA学生会员注册费：35欧元

组委会

冯俊兰，IEEE Fellow及首席科学家，中国移动（中国）

Eng-Siong Chng，教授，南洋理工大学（新加坡）

谢磊，教授，西北工业大学（中国）

Khalid Choukri，秘书长，欧洲语言资源协会（法国）

王帅，研究科学家，深圳市大数据研究院（中国）

Shinji Watanabe，副教授，卡内基梅隆大学（美国）

丰强泽，联合创始人兼数据科学家，Datatang（中国）

王大亮，数据科学家，Datatang（中国）

刘和鑫，博士后，南洋理工大学（新加坡）

郭鹏程，博士研究生，西北工业大学（中国）

穆秉甡，博士研究生，西北工业大学（中国）

孙照凯，硕士研究生，西北工业大学（中国）

赞助商

媒体合作伙伴

INTERSPEECH2025多语种对话语音 语言模型（MLC-SLM）挑战赛/研讨会

背景