cn

数据解决方案

请输入姓名

手机号码格式错误

请输入联系电话

请输入公司名称

请输入正确的工作邮箱

请输入数据需求

提交成功!感谢您支持数据堂。

填写格式错误请重新填写

确定

数据需求不能小于5个字且不能为纯数字

https://www.datatang.com

https://www.datatang.ai

m.datatang.ai

一文速览INTERSPEECH 2024 | 研讨会、挑战赛、论文及参会提示

作者:数据堂 发布时间:2024-08-13


INTERSPEECH 2024即将于9月1日至5日在希腊科斯岛举办。作为全球最大的语音科学专业会议,会议旨在展示最新的研究成果,挖掘语音应用的新机遇,推动语音科技的发展。该会是语音领域的顶级会议之一。


本文收集整理了本次会议的活动日程、挑战赛、部分论文及参会提示,供大家参考使用。数据堂也即将亮相INTERSPEECH 2024展会01号展位,分享我们在语音领域的最新解决方案,敬请关注。


01 会议日程

(9月2日正式开幕 - 9月5日会议结束)







02 挑战赛


Speech Processing Using Discrete Speech Unit Challenge


【简介】在传统的语音处理方法中,模型通常以原始波形或从这些波形中提取的高维特征作为输入。例如,频谱语音特征仍然被广泛应用,而基于学习的深度神经网络特征在近年来获得了显著关注。一种有前途的替代方法是使用离散语音表示,其中在时间窗口内的语音信号可以通过离散标记来表示,正如这项工作中所展示的那样。

赛道】

1.ASR:评估所提出系统在所提数据上的ASR表现。

2.TTS:评估生成语音的质量。

3.歌声合成:评估合成歌声的质量。

【网址】点击跳转



The Second DIarization of SPeaker and LAnguage in Conversational Environments (DISPLACE) Challenge


【简介】DISPLACE 2024挑战赛聚焦于多语言说话人划分、多说话人环境下的语言划分以及在混合语码/切换语码和多重口音场景中的自动语音识别的新局限性和进展,并使用相同的数据集进行评估。

主办方发布了超过100小时的数据(包括监督和无监督数据)用于开发和评估。无监督领域匹配数据将发布给参与者以用于模型适应。比赛不会提供训练数据,参与者可以自由使用任何资源来训练模型。

【赛道】

1. 多语言场景中的说话人划分。

2. 多说话人环境下的语言划分。

3. 多重口音环境下的自动语音识别。

【网址】点击跳转



Speech-Based Cognitive Assessment in Chinese and English (TAUKADIAL) Challenge


【简介】认知问题如记忆力减退、语言和言语障碍以及推理困难在老年人群中频繁出现,并且通常是阿兹海默症的前兆。针对阿兹海默症预防和早期检测的认知障碍研究已成为医疗保健领域的重点需求,迫切需要一种成本效益高且可扩展的认知评估和障碍检测方法。语音是一种易于采集的行为信号,能够反映认知功能,因此有潜力作为认知功能的数字生物标志物。
虽然迄今为止大多数研究都集中在英语语音数据上,但TAUKADIAL挑战赛旨在全球健康背景下探索语音作为认知标志物的潜力,提供中文和英文这两种主要语言的数据。TAUKADIAL挑战赛的任务将重点关注中文和英文老年人认知测试评分的预测及轻度认知障碍(MCI)的诊断。

【网址点击跳转





03 论文


WenetSpeech4TTS: A 12,800-hour Mandarin TTS Corpus for Large Speech Generation Model Benchmark


论文作者】马林涵*,郭大可*,宋堃,姜月鹏,王帅,薛浏蒙,许伟铭,赵欢,张彬彬,谢磊(*代表对本工作同等贡献)

论文单位西北工业大学、深圳大数据研究院,香港中文大学(深圳),WeNet开源社区,Shanghai Bigmelon Technology

论文亮点本文提出了一个由开源 WenetSpeech 数据集改进而来的用于 TTS 任务的多域普通话数据集 WenetSpeech4TTS ,共包含 12,800 小时成对的音频和文本数据。我们根据质量评估分数的不同等级对 WenetSpeech4TTS 划分出了不同大小的子集,并在这些子集上训练和微调了 VALL-E 和 NaturalSpeech 2 系统以验证数据集可用性且为公平对比的基准提供基线模型。数据集、对应的基准以及模型权重均已开源。

论文简介随着大型文本转语音 (TTS) 模型的发展和训练数据规模的扩大,最先进的 TTS 系统取得了令人印象深刻的性能。本文提出了 WenetSpeech4TTS,这是一个源自开源 WenetSpeech 数据集的多域普通话语料库。我们通过调整片段边界、增强音频质量以及消除存在多说话人的片段来改进 WenetSpeech,以适配TTS任务。经过更准确的转录操作和基于数据质量的过滤过程,获得了包含 12,800 小时成对的音频和文本数据的 WenetSpeech4TTS 语料库。此外,我们根据质量评估分数的不同等级划分出了不同大小的子集,以便进行 TTS 模型的训练与微调。我们在这些子集上训练和微调了 VALL-E 和 NaturalSpeech 2 系统,以验证 WenetSpeech4TTS 的可用性,同时为公平对比 TTS 系统的基准建立基线模型。WenetSpeech4TTS 语料库、对应的基准以及训练的模型权重均在 huggingface 上公开获取。

论文链接点击跳转

Huggingface点击跳转

代码链接点击跳转


BS-PLCNet 2: Two-stage Band-split Packet Loss Concealment Network with Intra-model Knowledge Distillation


论文作者张子晗,夏咸军,黄传增,林丹峰,谢磊

论文单位西北工业大学、字节跳动

论文亮点本文提出了一种新的两级带分丢包隐藏网络——BS-PLCNet 2,它是BS-PLCNet的升级版。得益于模型内知识蒸馏,BS-PLCNet 2在ICASSP 2024 PLC Challenge盲测集中实现了最先进的PLCMOS性能,其计算复杂度仅为BS-PLCNet的38.1%,模型参数量只有BS-PLCNet的40%。此外,在单次训练过程中就可以同时获得因果模型和非因果模型。

论文简介音频丢包是实时语音通信中不可避免的问题。最近我们提出了一种针对全频段信号的频带分割丢包隐藏网络(BS-PLCNet)。虽然它在ICASSP 2024 PLC挑战赛中表现优异,但BS-PLCNet是一个大型模型,具有8.95G FLOPS的高计算复杂度。为此我们提出了其改进版本BS-PLCNet 2,以进一步降低计算复杂度并提高性能。具体来说,为了弥补缺失的未来信息,在宽带模块中,我们设计了双路径编码器结构(具有非因果路径和因果路径),并利用模型内知识蒸馏策略将未来信息从非因果教师提炼到因果学生路径。此外,我们在丢包恢复后引入了一个轻量级的后处理模块,以恢复语音失真并去除音频信号中的残留噪声。BS-PLCNet 2只有BS-PLCNet 40%的参数量以及38%的计算量,在ICASSP 2024 PLC挑战盲集上获得了0.18的PLCMOS提升,在该数据集上实现了SOTA的性能。

论文链接点击跳转

Demo点击跳转


AS-70: A Mandarin stuttered speech dataset for automatic speech recognition and stuttering event detection


【论文作者】龚嵘*,薛鸿飞*,王乐之,徐昕,李其声,谢磊,卜辉,吴少玫,周家名,秦勇,张彬彬,杜俊,宾佳,李明

论文单位西北工业大学、StammerTalk,希尔贝壳,AImpower,南开大学,WeNet开源社区,中国科学技术大学,昆山杜克大学
论文亮点发布首个公开的普通话口吃语音数据集AS-70,也是同类数据集中最大的一个;建立了口吃语音识别和口吃事件检测的新基准。
论文简介去二十年来语音技术突飞猛进,在流利语音的自动语音识别(ASR)任务中取得了接近人类的水平。然而,当这些模型应用于非典型语音(如口吃)时,其效果却大打折扣。本文介绍的 AS-70 是首个公开的普通话口吃语音数据集,也是同类数据集中最大的一个。AS-70 包括对话和语音命令朗读语音,包括逐字人工转录的抄本,适用于各种语音相关任务的研究。此外,我们还建立了基准系统,并展示了 ASR 和口吃事件检测(SED)任务的实验结果。通过将该数据集纳入模型微调,可以观察到当前最先进的ASR模型(如 Whisper 和 Hubert)有了显著改善,从而增强了它们在处理口吃语音方面的包容性。

论文链接点击跳转


Beyond Performance Plateaus: A Comprehensive Study on Scalability in Speech Enhancement


论文作者张王优1,Kohei Saijo2,Jee-weon Jung3,李晨达1,Shinji Watanabe3,钱彦旻1

论文单位1上海交通大学 AudioCC Lab,2早稻田大学,3卡耐基梅隆大学 WAVLab

论文亮点该论文深入探究了不同架构的语音增强模型(BSRNN、Conv-TasNet、DEMUCS-v4、TF-GridNet)在不同模型复杂度、不同训练数据量、因果/非因果模式等情况下的规模化能力。相关实验采用了来自多个领域的公开数据(VCTK+DEMAND、DNS-2020、WHAMR!、CHiME-4、REVERB),以评估模型的泛化能力和处理不同声学环境的通用性。实验结果揭示了不同模型架构在语音增强规模化能力上的显著差别,也指出了语音增强领域当前尚待探索的研究方向,如构建大规模多领域数据集和设计可高效规模化的模型架构。

【论文简介】大部分语音增强的研究局限于较小数据量(如VCTK+DEMAND)或单一领域(如DNS-2020)的数据集,且性能评估往往仅在相应划分的测试集上进行,这使得研究者难以了解不同语音增强模型的实际泛化性和规模化能力。为填补这一研究空白,此论文针对语音增强领域常见的若干个模型架构展开探究,通过广泛实验比较和分析语音增强模型关于模型复杂度、训练数据量的规模化能力。

论文首先在BSRNN架构上进行了系统性探究,实验结果表明该模型架构的非因果模式具有显著好于因果模式的规模化能力和泛化能力,且语音增强性能与模型复杂度呈现较为一致的正相关,但在训练数据较少(如仅采用9小时VCTK+DEMAND数据)时模型性能呈现出“双下降”现象,这表明较少数据量难以准确反应语音增强模型的真实能力。

另一方面,当通过合并来自不同领域数据来扩充训练数据量时,BSRNN语音增强性能同样随着训练数据量增长而呈现一致改进的趋势。但通过仿真大量单一领域数据来进一步扩充语音数据规模时,语音增强性能反而出现下降,这表明在扩充数据量的同时保证数据的多样性对于语音增强模型的泛化性十分重要。

最后,论文比较了不同模型架构关于模型复杂度、训练时间、参数量的规模化能力。结果如下图所示,其中BSRNN和TF-GridNet分别在较低和较高复杂度的情况下展现出最强的规模化能力,它们均采用了时频域双路建模的网络架构,这体现出这一架构的强大表示能力。但另一方面,这些模型架构均基于RNN进行设计,随着模型复杂度不断增大,其并行化能力的缺陷逐渐显现,导致很低的训练效率。因此,设计具有更高计算效率和强大规模化能力的语音增强架构是亟待解决的问题。

论文链接点击跳转

代码链接点击跳转


Codecfake: An Initial Dataset for Detecting LLM-Based Deepfake Audio


论文作者陆逸*,谢元坤*,傅睿博,温正棋,陶建华,汪智勇,戚鑫,柳雪飞,李永伟,刘育坤,王小鹏,施淑辰(*代表对本工作同等贡献)

论文单位中国科学院自动化研究所,中国科学院大学,中国传媒大学,清华大学,上海第二工业大学

论文亮点本文提出了一个名为Codecfake的数据集,是首个针对大语言模型(LLM)合成的深度伪造音频进行检测数据集。这个数据集是通过七种代表性的神经编码器方法生成的伪造音频,涵盖了当前主流的LLM音频生成模型。Codecfake数据集包含总计1,058,216个音频样本,其中包括132,277个真实音频样本和925,939个假音频样本。通过该数据集的实验结果表明,使用Codecfake数据集训练的音频Deepfake检测(ADD)模型在检测基于编解码器的Deepfake音频方面表现显著优于基于声码器训练的ADD模型,有效提升了检测准确性和泛化能力。

论文简介

随着大型语言模型(LLM)在音频生成方面的进步,越来越多的Deepfake音频被生成。这些新型的音频生成方法采用了端到端的神经编解码技术,与传统依赖声码器的生成方法不同。这给现有的音频Deepfake检测(ADD)模型带来了挑战,因为它们主要依赖声码器的伪影进行检测。

为了应对这一挑战,我们提出了Codecfake数据集,这是一个专门用于检测基于LLM的Deepfake音频的初始数据集。该数据集包括七种代表性的神经编解码方法,涵盖了当前主流的音频生成技术。通过使用Codecfake数据集,我们希望评估并改进ADD模型在检测基于编解码器生成的Deepfake音频方面的性能。实验结果表明,基于声码器训练的ADD模型在检测基于编解码器生成的音频时效果不佳,无法有效区分真实音频和伪造音频。相反,使用Codecfake数据集训练的ADD模型在各种测试条件下表现出色,显著降低了平均等错误率(EER),表明其在检测任务中具有更好的泛化能力。总之,Codecfake数据集为检测基于LLM的deepfake音频提供了一个重要工具,帮助研究人员开发更有效的检测方法,从而提升对音频伪造的防护能力。

论文链接点击跳转





04 参会提示


会场信息

Kipriotis Hotels & Conference Center (KICC),

Psalidi, 85300 Kos, Greece



交通信息

公交车:展方建议可于机场乘公交前往Kos市区,并转乘1路公交车(Agios Fokas方向)或5路公交车(Therma方向)前往Kipriotis Village/KICC。

出租车:出租车停靠点位于机场到达大厅前方。请注意岛上没有Uber服务。

此外,展方还与本地合作伙伴联合提供巴士接送服务,详见INTERSPEECH官网(点击跳转)。



数据堂参展信息

数据堂期待与您在INTERSPEECH 2024现场相见。本次我们将展示数据堂在大模型、多模态、ASR、TTS等领域的最新数据解决方案,并与语音圈顶尖学者和企业代表分享我们的见解与经验。

参展时间:9月2日 - 9月5日

参展展位:01号展位,KICC会场


期待与您在INTERSPEECH 2024相见!


口音英语语音识别技术研讨会暨挑战赛-数据堂