[object Object]
数据解决方案
请输入姓名
手机号码格式错误
请输入联系电话
请输入公司名称
请输入正确的工作邮箱
请输入数据需求
提交成功!感谢您支持数据堂。
填写格式错误请重新填写
确定
数据需求不能小于5个字且不能为纯数字
https://www.datatang.com
https://www.datatang.ai
m.datatang.ai
大语言模型(LLMs)在多种下游任务中展示了卓越的能力,成为语言理解和生成的强大基础模型。此外,越来越多的研究关注将大语言模型应用于语音和音频处理任务,如自动语音识别(ASR)、音频描述和语音对话模型等新兴领域。 然而,现实世界的对话语音数据对于开发基于LLM的语音对话模型至关重要,因为这些数据能够体现人类交流的复杂性,包括自然的停顿、打断、说话者重叠以及多样的对话风格。此类数据的稀缺性,尤其是在多语言环境下,成为推动该领域发展的重大挑战。 现实世界对话语音的重要性不仅限于技术进步——它对于构建能够在多语言、动态和丰富语境的环境中自然理解和响应的人工智能系统至关重要。对于下一代人机交互系统尤为重要,因为在这些系统中,口语对话是主要的交流方式。 因此,本次研讨会旨在通过举办构建多语言对话语音语言模型的挑战,并发布一个真实世界的多语言对话语音数据集,来弥合这一差距。
字幕是视频数据中最重要的文本信息之一,访谈节目或电视剧等视频一般会把人们交谈的内容以视觉字幕的形式呈现出来。近年来,字幕识别被广泛应用于视频推荐、检索和理解系统中,但大家一般会通过语音识别或OCR识别等单一模态的识别来获得文本形式的字幕信息。为了更好的促进字幕识别技术的发展,我们将在ICPR2022举办多模态的字幕识别竞赛,欢迎大家报名参加!
2021年第十六届全国人机语音通讯学术会议(National Conference on Man-Machine Speech Communication,NCMMSC2021)将于2021年10月15-18日在江苏徐州举行。本次会议由中国中文信息学会和中国计算机学会联合主办。 针对本次会议,由腾讯科技 ASR&OCR oteam联合发起围绕时下在工业界最为关注的三类媒体形式---长视频、短视频、直播场景进行比赛。 本次比赛由易到难,Task1将关注模型场景失配下长短视频及直播中汉语关键词的检测问题;Task2则扩展到Task1的多语种和多方言关键词场景;Task3会根据视频画面里的字幕信息和语音识别信息。共同打造SOTA的长、短视频、直播场景的字幕语音内容识别多模态工业级解决方案。
Interspeech是由国际语音通信协会ISCA组织的语音研究领域的顶级会议之一,2020年Interspeech以“Cognitive Intelligence for Speech Processing”为主题,汇聚来自全球语音领域的研究人员、人工智能从业者、业内知名企业等,在语音方面如信号处理和语音识别语言方面如NLP、翻译等进行深入交流与探讨。
Interspeech是由国际语音通信协会ISCA组织的语音研究领域的顶级会议之一,2020年Interspeech以“Cognitive Intelligence for Speech Processing”为主题,汇聚来自全球语音领域的研究人员、人工智能从业者、业内知名企业等,在语音方面如信号处理和语音识别语言方面如NLP、翻译等进行深入交流与探讨。