远场语音识别数据让智能家居更懂你

作者：数据堂发布时间：2023-03-30

根据百度的定义，距离机器大概有3米到5米的距离发出语音指令，就是远场语音识别。实际上，若没有特意靠近麦克风，处于一个自然说话、由远端麦克风拾音的状态下，通常就是远场语音识别的场景了。

智能家居是重要的远场语音识别应用场景，智能远场语音是融合了AI语音搜素的一项改变用户体验的功能。

智能家居是典型的远场语音识别应用场景

用户与智能音箱对话是一个典型的远场语音识别的应用。

Amazon发布的Echo智能音箱，开启了智能硬件远场语音交互时代。相比于Siri手机端近场的语音交互，Echo音箱的语音交互支持的距离更远，交互更加自然便捷。

它使用了麦克风阵列来保证远距离复杂背景噪声和干扰环境下的良好拾音效果，随后麦克风阵列逐渐成为了后续语音交互智能硬件的标配。

国内的AI企业如百度，在远场语音识别领域也做出了突破。百度今年发布了智能音箱新品，小度音箱无屏系列再次迎来了更新——小度智能音箱2红外版。

这款音箱搭载了百度首款专门针对远场语音交互研发的鸿鹄芯片，采用了业内先进的语音唤醒模型、复数CNN的语音增强和声学建模一体化建模技术，能够实现更高的语音唤醒率、更准确的语音识别以及更低的待机功耗。

除了智能音箱，支持远场语音识别的智能电视也越来越受到消费者的追捧。

用过蓝牙语音遥控器的用户都知道，触发语音指令需要按下遥控器的语音按键，对着遥控器说出指令，才能让智能电视或者智能盒子作出反应。而智能远场语音功能则是省略了“按下遥控语音键”这一程序，用户只需要坐在沙发上说出指令，即可得到电视的反馈。

目前国内智能电视厂商TCL、康佳纷纷布局远场语音领域，分别推出了人工智能小T和康佳电视A1产品，互联网电视品牌暴风TV也推出了暴风大耳朵，旨在提升人机交互的体验感和用户的满意度。

在智能远场语音交互上，如何在复杂的客厅环节中，轻松语音唤醒设备成为极为重要的用户体验。

远场语音识别需要前后端结合去完成。一方面，在前端使用麦克风阵列硬件，通过声源定位及自适应波束形成做语音增强，在前端完成远场拾音，并解决噪声、混响、回声等带来的影响。

结合人工智能算法和机器训练数据，也就是后端识别引擎，通过软硬件的复杂结合，让远场语音实现自然人机交互，让用户远距离即可实现与智能电视或者智能音箱的“对话”。

远场语音识别的前端通常会面临语音激活检测、回音消除、低信噪比和混响等挑战，解决上述困难的核心途径就是扩大和优化后端的机器训练数据集。

数据堂研发的《998人远场家居手机麦克风阵列采集语音数据》和《10小时远场家具麦克风阵列噪音采集语音数据》，能够有效助力远场语音识别前后端的语音增强和降低噪音混响，提升远场语音识别的精准率。

998人远场家居手机麦克风阵列采集语音数据

该数据集由998人参与语音采集，参与录制的男女比例为1：1，采集设备为MEMS麦克风阵列和手机。数据的录制涵盖多种应用场景，录制内容包括通用类语句、家居场景指令、功能性助手和唤醒词，数据可用于家居场景下的语音增强、语音识别等任务。

10小时远场家居麦克风阵列噪音采集语音数据

数据包含多套产品，每套一种不同的麦克风阵列阵型。噪音数据均采集自真实家居场景，为普通居民日常居住的房屋室内。

数据包含约620条音频数据，每条音频长度约1分钟，噪音类型包含电视播放噪声、冰箱使用噪声、空调使用噪声、抽油烟机噪声、洗衣机噪声、空气净化器噪声、吸尘器噪声和多人对话。数据可用于家居场景下的语音增强、语音识别等任务。

百度语音首席架构师贾磊说：“本质上人类语音交互都是远场。”随着智能音箱、智能家居等产品和理念的推广普及，远场语音识别正变得越来越重要，同时随着技术的进步，远场语音识别也正变得越来越可用。

未来一段时间内，远场语音识别将成为语音识别重点发力的领域之一，研究重点将集中在以下几个方面：更好的前端处理技术，如给予深度神经网络的前端处理；更好的后端建模技术；远场数据模拟技术，这对于产品初期的模型迭代尤其重要；基于噪声环境、场景、SNR等的模型快速自适应。

相信通过学术界和工业界的努力，再配合训练数据的优化和芯片的发展，语音识别、语音合成将一体化地来解决人类终端的交互，远场语音识别技术会变得更加成熟、更加易用。

阅读更多内容

智能车载语音消噪，噪音数据集必不可少！

随着语音识别技术在智能车载领域落地应用越来越成熟，更多司机解放了双手，通过简单的语音指令就可以进行导航、听音乐、控制空调和车窗等设备。各大科技巨头纷纷发力车载语音助手市场，语音交互已然成为人车交互的重要趋势之一。

AI充当家庭安防排头兵，玩转场景数据让智能监控更“贴心”

家庭安防智能监控系统通过可连接到、手机、平板电脑或计算机的硬件设备（通常为智能摄像头），帮助用户监控财产、家庭成员或家里养的宠物。通过智能监控系统，用户不需要一直紧盯着屏幕。当屏幕出现异常，智能分析系统会自动做出判断，并发出报警信号，从而避免了人们由于长时间看屏幕所导致的疲劳、注意力下降，能够真正地提高全天候监控的实际效果。

远场语音识别数据让智能家居更懂你

上一篇

智能车载语音消噪，噪音数据集必不可少！

下一篇

AI充当家庭安防排头兵，玩转场景数据让智能监控更“贴心”

远场语音识别数据让智能家居更懂你

近期内容

数据驱动进化：AI Agent如何重构手机交互范式？

垂域大模型时代：专业数据铸就行业智能底座

案例分享|高质量数据服务赋能智慧医疗3.0时代

上一篇

智能车载语音消噪，噪音数据集必不可少！

下一篇

AI充当家庭安防排头兵，玩转场景数据让智能监控更“贴心”