cn
数据解决方案
请输入姓名
手机号码格式错误
请输入联系电话
请输入公司名称
请输入正确的工作邮箱
请输入数据需求
提交成功!感谢您支持数据堂。
填写格式错误请重新填写
确定
数据需求不能小于5个字且不能为纯数字
https://www.datatang.com
https://www.datatang.ai
m.datatang.ai
作者:数据堂 发布时间:2023-11-09
如今,语音合成(Text-to-Speech,以下简称TTS)技术已然相当成熟,可以让机器通过语音与人类进行无障碍交流,在语音助手、智能客服、智能家居等领域得到广泛应用。在ChatGPT新一轮的更新中,最让人惊喜的莫过于语音对话功能了。用户可以从合成声音中选择一种,可以像打电话一样与聊天机器人进行对话,实时获得ChatGPT的回应。
如此高自然度、智能度的人机交互方式逐渐进入我们生活,人们对机器给予的情感表现力以及个性化能力需求明显提高,为了赋能大模型时代的AI语音交互,数据堂快速升级个性化语音合成数据服务能力,帮助客户增强音色保真度和情感表达的需求,以满足虚拟人、有声阅读、短视频和智能客服等多种应用场景需求。
一、多模态数据采集能力升级
多模态语音合成指的是在传统的声音感知模态基础上,增加了通过面部捕捉达成的视频感知模态。数据堂依托语音、视觉方面多年的数据处理经验以及增强升级的高音质合成系统,打造了全新的语音、视觉多模态融合的成品数据集。
由多人参与的音视频数据,采用多设备同步录制的方式,通过脉冲信号进行精准对齐,满足极高的准确性要求。采集人极具丰富的情感,使表情更加具有表现力。其次,通过常规自然对话的重现,使合成的声音更具自然真实性。
资源储备优势
借助多年的TTS数据项目经验,数据堂积累了丰富的专业演员、模特资源,他们更优于普通素人的台词功底及极佳的语音、面部表达能力,数据质量更高。
专业采集设备
数据堂增设了专业的电容麦克风,支持在不同的距离和空间锚定并进行多通道同步的多模态数据采集。涵盖多种场景、多个年龄、数十种拍摄角度,具备良好的采集多样性。
此外,区别于传统的TTS数据制作流程,数据堂紧跟市场需求变化,助力实现合成效果的全面升级,帮助客户模型适配到更具个性化和丰富表现的场景中。从而获得更高合成效率,更完美的声音体验。
二、多人平均模型库升级
数据堂除了单人音库数据外,还增设了多人平均模型库,使声音涵盖更多种类的音色及极高的个性化,帮助客户完成语音合成训练中的各种任务。
在传统音乐数据标注格式中,通过对五线谱的标注,进而体现音乐各乐理层面的信息,同时,还需通过textgrid体现语言部分的信息标注。
数据堂TTS处理能力全面升级,我们支持将音乐信息与语言信息统一到同一格式范畴,提取出关键的音高、连音等信息,通过textgrid进行统一标注,使流程变得更加精简,极大提升使用效率。
此外,数据堂也新增加了唱法标注等标注能力,使人声方面的数据处理能力变得更加精细。
四、个性化采集能力升级
为了积极应对更多领域的语音合成需求,数据堂拥有自建专业TTS录音棚,并已积累成熟的采集能力与庞大的成品数据资源。个性化音色库满足多领域、多角色、多语种等众多音色需求,如霸道总裁音色、邻家哥哥音色、高冷御姐等音色。
五、极致还原场景采集能力升级
数据堂拥有丰富的对话式TTS数据储备,通过选用专业的客服、记者人员,在数据堂自有的通过专业级NR15声学标准的专业录音棚,真实模仿访谈、客服等工作场景,极致还原多角色的工作状态。这也是目前为止,最具自然度的对话采集方式。
六、特设专业级监听导演
数据堂为每个TTS项目分配专业的监听人员,全程把控录音质量,确保在任何环境下输出另客户满意的语音清晰度,保持专业的高质量数据把控力。
在大模型飞速发展的时代,语音合成技术正在赋能自然逼真流畅的用户体验。数据堂拥有一套完善的语音合成数据质量和安全管理体系。通过专业的设备与环境,丰富的样音资源,多年TTS项目积累的经验,可以满足多种声音形象需求。
欢迎后台留言,免费获取小堂最新打造的语音合成数据集吧!