数据堂新“声”态｜语音合成数据服务全面升级

作者：数据堂发布时间：2023-11-09

如今，语音合成（Text-to-Speech，以下简称TTS）技术已然相当成熟，可以让机器通过语音与人类进行无障碍交流，在语音助手、智能客服、智能家居等领域得到广泛应用。在ChatGPT新一轮的更新中，最让人惊喜的莫过于语音对话功能了。用户可以从合成声音中选择一种，可以像打电话一样与聊天机器人进行对话，实时获得ChatGPT的回应。

如此高自然度、智能度的人机交互方式逐渐进入我们生活，人们对机器给予的情感表现力以及个性化能力需求明显提高，为了赋能大模型时代的AI语音交互，数据堂快速升级个性化语音合成数据服务能力，帮助客户增强音色保真度和情感表达的需求，以满足虚拟人、有声阅读、短视频和智能客服等多种应用场景需求。

一、多模态数据采集能力升级

多模态语音合成指的是在传统的声音感知模态基础上，增加了通过面部捕捉达成的视频感知模态。数据堂依托语音、视觉方面多年的数据处理经验以及增强升级的高音质合成系统，打造了全新的语音、视觉多模态融合的成品数据集。

由多人参与的音视频数据，采用多设备同步录制的方式，通过脉冲信号进行精准对齐，满足极高的准确性要求。采集人极具丰富的情感，使表情更加具有表现力。其次，通过常规自然对话的重现，使合成的声音更具自然真实性。

资源储备优势

借助多年的TTS数据项目经验，数据堂积累了丰富的专业演员、模特资源，他们更优于普通素人的台词功底及极佳的语音、面部表达能力，数据质量更高。

专业采集设备

数据堂增设了专业的电容麦克风，支持在不同的距离和空间锚定并进行多通道同步的多模态数据采集。涵盖多种场景、多个年龄、数十种拍摄角度，具备良好的采集多样性。

此外，区别于传统的TTS数据制作流程，数据堂紧跟市场需求变化，助力实现合成效果的全面升级，帮助客户模型适配到更具个性化和丰富表现的场景中。从而获得更高合成效率，更完美的声音体验。

二、多人平均模型库升级

数据堂除了单人音库数据外，还增设了多人平均模型库，使声音涵盖更多种类的音色及极高的个性化，帮助客户完成语音合成训练中的各种任务。

三、音乐数据采集标注能力升级

在传统音乐数据标注格式中，通过对五线谱的标注，进而体现音乐各乐理层面的信息，同时，还需通过textgrid体现语言部分的信息标注。

数据堂TTS处理能力全面升级，我们支持将音乐信息与语言信息统一到同一格式范畴，提取出关键的音高、连音等信息，通过textgrid进行统一标注，使流程变得更加精简，极大提升使用效率。

此外，数据堂也新增加了唱法标注等标注能力，使人声方面的数据处理能力变得更加精细。

四、个性化采集能力升级

为了积极应对更多领域的语音合成需求，数据堂拥有自建专业TTS录音棚，并已积累成熟的采集能力与庞大的成品数据资源。个性化音色库满足多领域、多角色、多语种等众多音色需求，如霸道总裁音色、邻家哥哥音色、高冷御姐等音色。

五、极致还原场景采集能力升级

数据堂拥有丰富的对话式TTS数据储备，通过选用专业的客服、记者人员，在数据堂自有的通过专业级NR15声学标准的专业录音棚，真实模仿访谈、客服等工作场景，极致还原多角色的工作状态。这也是目前为止，最具自然度的对话采集方式。

六、特设专业级监听导演

数据堂为每个TTS项目分配专业的监听人员，全程把控录音质量，确保在任何环境下输出另客户满意的语音清晰度，保持专业的高质量数据把控力。

结语

在大模型飞速发展的时代，语音合成技术正在赋能自然逼真流畅的用户体验。数据堂拥有一套完善的语音合成数据质量和安全管理体系。通过专业的设备与环境，丰富的样音资源，多年TTS项目积累的经验，可以满足多种声音形象需求。

欢迎后台留言，免费获取小堂最新打造的语音合成数据集吧！

阅读更多内容

基于BEV的4D标注技术：推动自动驾驶技术革新

鸟瞰图Bird's Eye View（以下简称BEV），可以理解为一个从高处统观全局的上帝视角，车身多个传感器采集的数据，会进入统一模型进行整体推理。这样生成的鸟瞰图，将多个传感器数据在同一视角下表达，可以有效避免误差叠加，解决自动驾驶多传感器数据融合判断的难题。在BEV空间内，由于坐标系相同，可以进行时序融合形成4D空间。然而，由于点云数量巨大，原有的3D标注技术显然无法满足其需求，面向BEV的4D标注技术开始被业界关注和采用。

案例分享 | AI+医疗，高质量数据助力开启医疗智能化新篇章

医疗健康是人工智能率先落地的行业之一。据统计，到2030年，全球医疗Al市场规模有望达到1879.5亿美元。目前，AI已经在辅助诊断、药物开发、数据管理、临床决策等多个医疗健康领域取得明显成果。通过AI赋能，一方面可以提高医疗效率、降低成本；另一方面可以提高医疗质量，为患者带来更好的治疗效果与诊疗体验。

数据堂新“声”态｜语音合成数据服务全面升级

上一篇

基于BEV的4D标注技术：推动自动驾驶技术革新

下一篇

案例分享 | AI+医疗，高质量数据助力开启医疗智能化新篇章

数据堂新“声”态｜语音合成数据服务全面升级

近期内容

垂域大模型时代：专业数据铸就行业智能底座

数据堂新增大模型等20+套高质量数据集

数据安全新思路：标注平台私有化部署守护敏感数据

上一篇

基于BEV的4D标注技术：推动自动驾驶技术革新

下一篇

案例分享 | AI+医疗，高质量数据助力开启医疗智能化新篇章