cn

数据解决方案

请输入姓名

手机号码格式错误

请输入联系电话

请输入公司名称

请输入正确的工作邮箱

请输入数据需求

提交成功!感谢您支持数据堂。

填写格式错误请重新填写

确定

数据需求不能小于5个字且不能为纯数字

https://www.datatang.com

https://www.datatang.ai

m.datatang.ai

Speech-To-Speech火了:声音克隆如何塑造个性化声音?

作者:数据堂 发布时间:2024-10-15

不难发现,Speech-To-Speech声音克隆技术开始火了,借助时下AIGC产品应用层出不穷,声音克隆也受到越来越多的关注。目前,AI声音克隆技术已经可以实现模拟出一个人的声音,包括音色、语言习惯和情绪等。


01

声音克隆是什么?


AI 声音克隆是生成模仿特定人类声音的合成语音的过程,其本质是借助AIGC手段自动生成不同风格的声音。声音克隆可以对原音设置口音、风格(停顿、语气等)、情感、切换多种语言等,最终根据应用场景输出另一种风格的声音。
声音克隆技术可以运用在多种场景,如游戏角色台词、纪录片旁白、画外音等AIGC行业,可以在短时间内生成特定声音的多种语音内容,帮助企业降低制作成本。此外,在通信领域,声音克隆可以帮助私人定制语音助手,实现个性化的语音交互。



02

背后的数据逻辑


声音克隆技术主要基于深度学习模型,通过训练大量的语音数据来学习语音特征,并生成与目标录音相似的语音。背后的数据逻辑如下:

首先,构建声音克隆的基座需要大规模的音频。这些数据集应包含多语种、多风格、多情感的音频样本,涵盖不同主题和风格,以确保模型能够捕捉说话者的语音特征。在构建基座模型后,需要使用上千小时高质量语音数据对基座模型进行微调训练。这一阶段的训练数据最好配有副语言标注。副语言包括韵律特征(如语调、重音等)、突发性特征(如笑声、哭泣声等),以及次要发音(如鼻音等)。这些标注能够帮助模型更好地理解情感和语调,从而生成更具表现力的语音。

最后,需要对模型进行精细化调整,以提升生成语音的自然度和专业性。这一过程通常需要传统的专业发音人语音数据,以确保生成的语音流畅且自然。通过使用这些专业数据,模型能够学习更细腻的发音技巧和语音风格,使最终生成的语音更加接近真实说话者的声音。



03

声音克隆专题数据集

数据堂自有版权的带有副语言标注的成品数据集、多风格、多情感、多语种的语音合成库可帮助模型更好提取语音特征,助力客户构建高质量的声音克隆模型。


带有副语言标注的高质量语音数据推荐


2人中文自由对话合成库

发音人为专业声优,分为一男一女,针对既定话题进行自由对话。专业语音学家参与标注,且标注副语言,副语言标签包含换气、停顿、嘴瓢、拖音、咳嗽、笑声、结巴重复、倒装、语气词等,精准匹配声音克隆的研发需求。采样格式48khz,24bit,PCM wav。

200小时中文自然对话精标副语言合成库

400名普通发音人,进行两两自然对话,标注文本内容、句子时间戳。在副语言方面,标注了换气、重音、停顿、拖音、笑声等14种副语言。采样格式48khz,24bit,PCM wav。

多风格的多发音人语音数据推荐


8人多风格平均音色合成库

涵盖北京话、电影解说、华妃、纪录片解说、美食解说、小说解说、中青年磁性男、怼人杜飞。

150人中文客服平均音色合成库

由中文母语发音人录制,声音活泼亲切,录音内容以客服场景文本为主,涵盖金融等多个领域。语料音素覆盖均衡,专业语音学家参与标注,字准确率不低于99.8%,韵律标注准确率不低于准确率不低于98%。



100人中文通用平均音色合成库

内容分为中文、英文、中英混读。录音人性别及年龄分布均衡,包括成人音色、儿童音色、老人音色。录音内容涵盖新闻、日常口语、有声读物、诗词、广告、消息播送、娱乐等类别。对中文和英文分别进行了发音平衡覆盖。



50人中文三风格平均音色合成库

客服类、播音类、故事类录音文本,音节音素音调进行了平衡覆盖。录音人分为男性25人,女性25人。录音内容为每人210句客服类句子、210句播音类句子、210句儿童读物句子,进行音字标注及韵律标注。


多情感的多发音人语音数据推荐


42人中文多情感合成库

发音人覆盖不同年龄段、性别,且分布均衡。内容包含高兴、愤怒、悲哀、惊讶、恐惧、厌恶、中性七种情感句子。数据集共计108小时,平均每句15个字左右,每人每种情感数据量不少于20分钟。



20人中文多情感合成库

由中文母语发音人录制,覆盖不同年龄段音色和性别,共计60小时。文本均来自于小说,包含高兴、愤怒、悲哀、惊讶、恐惧、厌恶、中性七种情感文本。语料音素覆盖均衡,根据发音人实际发音对音频进行文本音字标注、韵律层级标注、音素边界标注。

精品发音人语音数据推荐


29.4小时中文女声通用合成库

录音人为声音温柔亲切的年轻女性,内容涵盖日常口语、有声读物、新闻、广告、客服、电影解说,音节音素音调都进行了平衡覆盖。中文和中英混合句子均长15字左右,英文句子4~8个单词左右。



4人东北方言平均音色合成库

由东北本土的专业声优进行录制,年龄20-30岁。语料中约40%包含东北特有词汇,句子均长15字左右。对音频进行文本音字标注、韵律层级标注、音素边界标注,可用于语音合成声音克隆模型训练及算法研究。


数据堂助力语音识别、语音合成、声音克隆等多种语音任务,用更高质量的数据、更精细化的数据满足您的个性化数据需求。
语音合成(TTS)_数据堂