254小时天津话自然对话手机采集语音数据
天津话自然对话手机采集语音数据,基于30余个常见主题来模拟录制。此数据集标注了文本内容、句时间戳、说话人身份、性别等多种属性,由330名来自天津地区的母语使用者录制,准确性高,为语音识别相关研究及应用提供了丰富的资源,经多家AI公司验证:有助于模型面对真实世界的多样性时能够表现出色。我们严格遵循数据保护法规和隐私规定,确保数据采集、存储和使用的过程中维护用户的隐私和合法权益,所有数据均遵循GDPR,CCPA,PIPL。
数据规格
格式
16kHz,16bit,未压缩wav,单声道
录音环境
相对安静的室内,无回声
录音内容
给出话题列表,录音人从中挑选多个自己熟悉的话题以确保对话的流畅自然,围绕每个话题展开一段对话并录制
人员
共330人,性别比例均衡;录音人年龄分布在18-60岁
标注特点
截取有效单句进行标注, 标注结果包括有效单句的起止时间点、说话人标识、文本内容;噪音标注
设备
安卓手机、苹果手机
语言
天津话
准确率
句准确率95%
样例展示
0:00/ 0:00
像企业家呀科学家,我就是像比较喜欢之前看就是上学时候啊,看那些什么爱因斯坦。
0:00/ 0:00
你你平时对咱这个企业有有了解吗,名人之类的有了解吗。[N]
0:00/ 0:00
尤其是之前看那些物理书上,爱因斯坦啊,还有像什么呃,牛顿啊他们的那些就是故事,哎呀太有意思了。
0:00/ 0:00
那种自己的一生的传奇故事,我感觉像这种啊,它就挺吸引人入胜的,我感觉反正挺有意思的。
0:00/ 0:00
哎对对,我们上学时啊,主要吸引我的是那小故事,那特别吸引人。