998人中国普通话远场家居语音数据(麦克风阵列+手机)
中国普通话远场家居语音数据(麦克风阵列+手机),由998人参与语音采集,男女比例1;1;录制文本涵盖通用类语句、家居场景指令、功能性助手、唤醒词、数字等多种应用场景。为语音识别相关研究及应用提供了丰富的资源,经多家AI公司验证:有助于模型面对真实世界的多样性时能够表现出色。我们严格遵循数据保护法规和隐私规定,确保数据采集、存储和使用的过程中维护用户的隐私和合法权益,所有数据均遵循GDPR,CCPA,PIPL。
数据规格
格式
麦克风阵列48kHz32bit(浮点);手机48kHz16bit
内容分类
通用类语句;家居场景指令;功能性助手;唤醒词;数字
录音环境
真实家居场景;安静环境
录音设备
手机;MEMS麦克风阵列,8麦环形,6(6+1)麦环形,4(4+1)麦环形,4麦线性,3(3+1)麦环形,2麦线性
录音人信息
共计998人,其中男性占比46%,女性占比54%;约800句/人
国家
中国
语言地区代码
zh-CN
语言
中文普通话
标注特点
标注文本内容等
准确率
句准确率98%
样例展示
0:00/ 0:00
今天舟山市的温度是二十度吗
0:00/ 0:00
七十万四千九百二十九
0:00/ 0:00
温度升高了,关闭。
0:00/ 0:00
幺九五五幺六四七九六九
0:00/ 0:00
一千四百九十九元三角一分