INTERSPEECH2025 多语言会话语音语言模型研讨会
大语言模型(LLMs)在多种下游任务中展示了卓越的能力,成为语言理解和生成的强大基础模型。此外,越来越多的研究关注将大语言模型应用于语音和音频处理任务,如自动语音识别(ASR)、音频描述和语音对话模型等新兴领域。
然而,现实世界的对话语音数据对于开发基于LLM的语音对话模型至关重要,因为这些数据能够体现人类交流的复杂性,包括自然的停顿、打断、说话者重叠以及多样的对话风格。此类数据的稀缺性,尤其是在多语言环境下,成为推动该领域发展的重大挑战。
现实世界对话语音的重要性不仅限于技术进步——它对于构建能够在多语言、动态和丰富语境的环境中自然理解和响应的人工智能系统至关重要。对于下一代人机交互系统尤为重要,因为在这些系统中,口语对话是主要的交流方式。
因此,本次研讨会旨在通过举办构建多语言对话语音语言模型的挑战,并发布一个真实世界的多语言对话语音数据集,来弥合这一差距。
正在报名