cn

数据解决方案

请输入姓名

手机号码格式错误

请输入联系电话

请输入公司名称

请输入正确的工作邮箱

请输入数据需求

提交成功!感谢您支持数据堂。

填写格式错误请重新填写

确定

数据需求不能小于5个字且不能为纯数字

https://www.datatang.com

https://www.datatang.ai

m.datatang.ai

远场语音识别数据让智能家居更懂你

作者:数据堂 发布时间:2023-03-30

根据百度的定义,距离机器大概有3米到5米的距离发出语音指令,就是远场语音识别。实际上,若没有特意靠近麦克风,处于一个自然说话、由远端麦克风拾音的状态下,通常就是远场语音识别的场景了。

智能家居是重要的远场语音识别应用场景,智能远场语音是融合了AI语音搜素的一项改变用户体验的功能。

 

智能家居是典型的远场语音识别应用场景


用户与智能音箱对话是一个典型的远场语音识别的应用。


Amazon发布的Echo智能音箱,开启了智能硬件远场语音交互时代。相比于Siri手机端近场的语音交互,Echo音箱的语音交互支持的距离更远,交互更加自然便捷。


它使用了麦克风阵列来保证远距离复杂背景噪声和干扰环境下的良好拾音效果,随后麦克风阵列逐渐成为了后续语音交互智能硬件的标配。


国内的AI企业如百度,在远场语音识别领域也做出了突破。百度今年发布了智能音箱新品,小度音箱无屏系列再次迎来了更新——小度智能音箱2红外版。


这款音箱搭载了百度首款专门针对远场语音交互研发的鸿鹄芯片,采用了业内先进的语音唤醒模型、复数CNN的语音增强和声学建模一体化建模技术,能够实现更高的语音唤醒率、更准确的语音识别以及更低的待机功耗。



除了智能音箱,支持远场语音识别的智能电视也越来越受到消费者的追捧。


用过蓝牙语音遥控器的用户都知道,触发语音指令需要按下遥控器的语音按键,对着遥控器说出指令,才能让智能电视或者智能盒子作出反应。而智能远场语音功能则是省略了“按下遥控语音键”这一程序,用户只需要坐在沙发上说出指令,即可得到电视的反馈。


目前国内智能电视厂商TCL、康佳纷纷布局远场语音领域,分别推出了人工智能小T和康佳电视A1产品,互联网电视品牌暴风TV也推出了暴风大耳朵,旨在提升人机交互的体验感和用户的满意度。



在智能远场语音交互上,如何在复杂的客厅环节中,轻松语音唤醒设备成为极为重要的用户体验。


远场语音识别需要前后端结合去完成。一方面,在前端使用麦克风阵列硬件,通过声源定位及自适应波束形成做语音增强,在前端完成远场拾音,并解决噪声、混响、回声等带来的影响。


结合人工智能算法和机器训练数据,也就是后端识别引擎,通过软硬件的复杂结合,让远场语音实现自然人机交互,让用户远距离即可实现与智能电视或者智能音箱的“对话”。


远场语音识别的前端通常会面临语音激活检测、回音消除、低信噪比和混响等挑战,解决上述困难的核心途径就是扩大和优化后端的机器训练数据集。


数据堂研发的《998人远场家居手机麦克风阵列采集语音数据》和《10小时远场家具麦克风阵列噪音采集语音数据》,能够有效助力远场语音识别前后端的语音增强和降低噪音混响,提升远场语音识别的精准率。


998人远场家居手机麦克风阵列采集语音数据

该数据集由998人参与语音采集,参与录制的男女比例为11,采集设备为MEMS麦克风阵列和手机。数据的录制涵盖多种应用场景,录制内容包括通用类语句、家居场景指令、功能性助手和唤醒词,数据可用于家居场景下的语音增强、语音识别等任务。


10小时远场家居麦克风阵列噪音采集语音数据

数据包含多套产品,每套一种不同的麦克风阵列阵型。噪音数据均采集自真实家居场景,为普通居民日常居住的房屋室内。


数据包含约620条音频数据,每条音频长度约1分钟,噪音类型包含电视播放噪声、冰箱使用噪声、空调使用噪声、抽油烟机噪声、洗衣机噪声、空气净化器噪声、吸尘器噪声和多人对话。数据可用于家居场景下的语音增强、语音识别等任务。

 

百度语音首席架构师贾磊说:“本质上人类语音交互都是远场。”随着智能音箱、智能家居等产品和理念的推广普及,远场语音识别正变得越来越重要,同时随着技术的进步,远场语音识别也正变得越来越可用。


未来一段时间内,远场语音识别将成为语音识别重点发力的领域之一,研究重点将集中在以下几个方面:更好的前端处理技术,如给予深度神经网络的前端处理;更好的后端建模技术;远场数据模拟技术,这对于产品初期的模型迭代尤其重要;基于噪声环境、场景、SNR等的模型快速自适应。


相信通过学术界和工业界的努力,再配合训练数据的优化和芯片的发展,语音识别、语音合成将一体化地来解决人类终端的交互,远场语音识别技术会变得更加成熟、更加易用。


语音合成(TTS)_数据堂