cn

数据解决方案

请输入姓名

手机号码格式错误

请输入联系电话

请输入公司名称

请输入正确的工作邮箱

请输入数据需求

提交成功!感谢您支持数据堂。

填写格式错误请重新填写

确定

数据需求不能小于5个字且不能为纯数字

https://www.datatang.com

https://www.datatang.ai

m.datatang.ai

语音识别新一轮竞争打响,自然对话会是下一个制高点吗?

作者:数据堂 发布时间:2023-03-30

当前,全球智能语音企业在朗读风格语音的字错误率基本保持同等水平,随着垂直化应用场景的增加,越来越多的企业开始加大在自然对话语音识别技术方面的研发投入。

万亿规模的庞大市场

多年来,语音识别技术越来越受到重视。它正成为与电脑、智能手机和智能设备相关的个人生活的一个常见部分。


语音设备的快速增长,消费者对智能设备的需求增加,以及车内信息娱乐系统的集成,是推动语音识别市场增长的关键因素。另外,人工智能在汽车、医疗保健和消费电子产品中的日益频繁使用,增加了对语音设备的需求。同时,对智能扬声器、消费电子产品、智能可穿戴设备、联网汽车、智能家居和医疗保健等设备中的语音应用程序的需求不断增长,是推动语音识别市场的关键因素之一。

根据市场研究机构Meticulous Market Research发布的最新报告预测,到2025年,语音识别市场规模将达到267.9亿美元,从2019年到2025年,将以17.2%的年复合增长率持续增长。

不降反升的字错误率

众所周知,语音识别系统常用的评估标准是词错误率(Word ErrorRate,WER),也称字错误率。为了使识别出来的词序列和标准的词序列之间保持一致,需要进行替换Substitution)、删除Deletion)或者插入Insertion)某些词,这些插入、替换或删除的词的总个数,除以标准的词序列中词的总个数的百分比,即为WER。其公式如下:


抛开这些专业的测算方法,通过频繁使用身边的智能化语音产品,也可以清晰的感知出语音识别效果,但好像并不是所有的识别效果都是令人满意的。我们不妨通过两个案例来看一下

案例一:新闻联播语音识别评测


数据来源

通过YouTube、CCTV中央电视台官方频道爬取2019年全年新闻联视频内容。分12个月,每个月抽取2期,共计24期节目,并抽取音频,共计时长约12小时。

场景特点

环境主体为密闭录音棚,安静,无背景噪声。穿插少量会场、户外采访

拾音设备专业高保真麦克风,等同于近场,声音质量极好

说话人主体为专业播音员,穿插少量领导人讲话,记者及被采访对象

说话方式主体为朗读式,中等语速,几乎无口误、重复、停顿等现象

口音、方言无,极标准普通话

内容领域国家时政新闻

评测结果

案例二:德云社相声语音识别评测


数据来源

通过德云社Youtube官方频道专场播放列表随机选取5期,累计约2.5小时。

场景特点


环境多为演出现场舞台,环境空旷,存在混响,存在背景噪声(观众笑声、掌声、起哄等),无背景音

拾音设备相声演员前方的立式麦克风或者领夹麦克风、近场

说话人郭德纲、于谦、岳云鹏等德云社相声演员

说话方式相声特有,双人交替,语速中等偏快

方言大部分为普通话,偶有少量模仿的方言片段

内容领域娱乐、相声段


评测结果

为什么会出现这么大的差别?

对比以上两个案例,我们不难看出,新闻联播的场景特点非常接近语音识别的理想场景,基本可以代表现有的中文语音识别系统性能上限,字错误率达1%-2%,即100个字中只发生一到两个字的错误。


然而,更多的场景可能更接近案例二,说话人的发音习惯更贴近日常沟通行为,在发声时会有大量的连音、吞音、发音变形、咬字不清等,包括一些无意识的“嗯、啊、呃”等,不会刻意去控制语音、发音习惯等,再加上外部环境与方言、语种等因素的影响,这种偏向于日常的自然对话风格的语音识别率不是很理想。

如果一个智能语音产品要求说话人达到新闻联播主播的声音标准才能给出足够多的识别结果,基本是不可能的。可见,自然对话风格的语音识别结果才是判断一个语音识别平台是否优秀的最高标准

一份来自数据堂的解决方案

好的AI需要更好的训练数据。目前数据堂拥有20万小时成品语音数据集,其中,自然对话风格的语音数据近4万小时,包括中文普通话、方言、英语、日语、韩语、印地语、越南语、阿拉伯语、西班牙语、法语、德语、意大利语等。

考虑到多信道对识别率的影响,中文普通话自然对话语音数据涵盖了手机、电话、网络等多种信道类型。


数据堂自然对话语音数据集还覆盖了全国七大方言区,发音人来自不同地域及城市、年龄性别覆盖均衡。语种方面包含日、韩、印地、越南、阿拉伯等亚洲语系,法、德语、意大利、西班牙等欧洲语系及各国人英语对话等。


在采集数据时,完全没有预设语料,只给出话题列表,录音人从中挑选多个自己感兴趣并熟悉的话题展开对话,确保对话语音自然流畅。


所有音频都经过了严格的人工转写及质检,标注文本内容、有效句子的起止时间点、录音人身份标识等,句准确率高达95%以上。

数据堂的对话式语音成品数据集已经服务于全球100多家企业的语音识别产品中,成功应用到智能客服、智能会议、视频字幕自动生成等众多场景。

后疫情时代下的AI赋能

疫情改变了生活,也改变了我们的生活方式。人工智能技术的应用场景更加丰富,也更加落地。

与往届大会不同,2020年世界制造业大会更加凸显了人工智能技术赋能之广泛。在主论坛开幕式环节,大众集团董事会主席迪斯、惠而浦全球首席执行官马克·比泽尔、阿里巴巴集团董事会主席张勇、华为技术有限公司常务董事余承东等出席会议并做相关演讲,讯飞听见实时双语字幕位于主屏幕两侧,为国际会议的无障碍交流提供了技术支持。


讯飞听见在华为昇腾A.I.新品全球发布会提供自然风格的中文实时转写、翻译德语、俄语、法语、韩语等多语种字幕服务。


2022年2月10日,Cerence赛轮思宣布将为日本先锋株式会社(Pioneer Corporation)提供自然的对话式语音识别技术支持。无论日本消费者驾驶任何类型的汽车,通过先锋的智能化产品都可以为他们带来安全的高效的日语语音个性化体验。


人工智能是一个伟大的历史进程,其起步至今,已迎来了人工智能规模化落地元年。未来,随着5G等技术的同步发展,越来越丰富的语音识别应用场景也将促进不同语言、不同肤色、不同地域之间的无障碍沟通。

附数据堂自然对话语音数据清单


语音合成(TTS)_数据堂