背景
大语言模型(LLMs)在多种下游任务中展示了卓越的能力,成为语言理解和生成的强大基础模型。此外,越来越多的研究关注将大语言模型应用于语音和音频处理任务,如自动语音识别(ASR)、音频描述和语音对话模型等新兴领域。
然而,现实世界的对话语音数据对于开发基于LLM的语音对话模型至关重要,因为这些数据能够体现人类交流的复杂性,包括自然的停顿、打断、说话者重叠以及多样的对话风格。此类数据的稀缺性,尤其是在多语言环境下,成为推动该领域发展的重大挑战。
现实世界对话语音的重要性不仅限于技术进步——它对于构建能够在多语言、动态和丰富语境的环境中自然理解和响应的人工智能系统至关重要。对于下一代人机交互系统尤为重要,因为在这些系统中,口语对话是主要的交流方式。
因此,本次研讨会旨在通过举办构建多语言对话语音语言模型的挑战,并发布一个真实世界的多语言对话语音数据集,来弥合这一差距。
任务
本次活动包括两个任务,参与者需探索语音语言模型的开发:
任务1:多语言对话语音识别
参与者将获得每个对话的参考分段。
目标:开发基于多语言LLM的ASR模型。
该任务聚焦于在多语言环境下优化转录准确度。
任务2:多语言对话语音分话和识别
评估期间不会提供任何预先或参考信息(例如,不提供预分段的发言或说话者标签)。
目标:开发一个系统,进行说话者分话(识别谁在什么时候说话)和语音识别(将语音转为文本)。
鼓励采用基于管道的系统和端到端系统,提供系统设计和实现上的灵活性。
其他主题
鼓励参与者提交研究论文和系统描述,展示创新发现、实践案例和前瞻性观点。感兴趣的主题包括但不限于:
•训练语音语言模型的新型架构和算法。
•用于处理原始音频数据的新型管道,这对于收集多样的互联网数据以训练语音语言模型非常有用。
•旨在生成更自然、情感丰富的对话语音的算法。
•利用多轮对话历史来改善识别和分话结果的方法。
•创新的语音语言模型评估技术或基准。
•用于训练语音和音频语言模型的新数据集(真实的和合成的)。
数据集描述
挑战数据集包含大约11种语言:英语(en)、法语(fr)、德语(de)、意大利语(it)、葡萄牙语(pt)、西班牙语(es)、日语(jp)、韩语(ko)、俄语(ru)、泰语(th)、越南语(vi)。
•每个数据集包含两人对话,话题随机分配。
•对话自然流畅,讲者就每个话题进行有意义的讨论。
•录音环境为安静的室内,使用iPhone等设备进行录制。
•英语数据集约包含500小时的录音,来自包括英国、美国、澳大利亚、印度和菲律宾的英语。其他语言各自贡献大约100小时,总计约1500小时的多语言对话语音数据。
该数据集旨在为训练和评估多语言对话语音语言模型提供丰富的资源,解决语言多样性、说话者变异性和语境理解等挑战。
重要日期
•2025年2月20日:注册开放
•2025年3月10日:训练数据发布
•2025年3月17日:开发集和基准系统发布
•2025年5月15日:评估集发布,排行榜开放
•2025年6月1日:排行榜冻结,提交入口开放(CMT系统)
•2025年6月20日:提交截止日期
•2025年7月10日:录取通知
•2025年8月22日:研讨会日期
组委会
•谢磊,教授,西北工业大学(中国)
•Shinji Watanabe,副教授,卡内基梅隆大学(美国)
•Eng-Siong Chng,副教授,南洋理工大学(新加坡)
•冯俊兰,IEEE Fellow及首席科学家,中国移动(中国)
•Khalid Choukri,秘书长,欧洲语言资源协会(法国)
•丰强泽,联合创始人兼数据科学家,Nexdata(美国)
•王大亮,数据科学家,Nexdata(美国)
•郭鹏程,博士生,西北工业大学(中国)
•穆秉甡,博士生,西北工业大学(中国)