录音音质差听不清？普林斯顿提出新算法HiFi-GAN或许可以帮上忙

作者：数据堂发布时间：2023-03-30

近日，普林斯顿大学的研究人员开发了一种新算法HIFI-GAN，可以将低质量的录音转换为高质量的录音室音质音频。

以往的人工智能音频处理方法通常只能改善录音音质的某一方面，如过滤背景噪音或去除混响，而这种新方法是一种多功能工具。

“先前的方法主要集中在改善录音的可懂度，但就改善音质来说并不是很有优势”，论文的第一作者Jiaqi Su说。研究人员希望将他们的框架应用于实现完全自动化的实时语音增强。

HIFI-GAN使用深度学习的关键工具人工神经网络，可以模拟生物神经元的互联结构。在这个系统中，两个独立的网络相互竞争可以提高音频质量。

其中一个网络被称为“生成器”（generator），用以生成清洗过的语音录音。另一个网络叫做“鉴别器”（discriminator），能够分析音频是录音室音质还是被生成器清洗过的录音。这些对抗神经网络之间的竞争提高了HIFI-GAN清洗音频的能力。

“生成器的任务就是欺骗辨别鉴别器”，合著者Adam Finkelstein说，“两者都在训练中逐渐提升，变得越来越有效率。这个过程完成后，你就可以拿掉鉴别器，而将拥有一个强大的生成器。”

为了评估HIFI-GAN生成的录音，研究人员寻求了众包平台Amazon Mechanical Turk的帮助。该平台的听众会分别对HIFI-GAN处理过的录音和其算法处理的录音进行评级。在Amazon Mechanical Turk2.8万名听众的评分中，HIFI-GAN的得分远高于其他五种算法的处理结果。

Finkelstein和团队成员还设立了一种客观评估指标，用于检验和量化录音中的细微差异。该指标是根据Amazon Mechanical Turk收集的5.5万人类判断进行训练的，它可以提高HIFI-GAN的性能，也能更广泛地应用于处理录音的深度学习方法的评估。

“我们想找到一种与人类感知相似指标，”合著者Pranay Manocha说，“例如，我们播放两段录音并让机器判断两段录音是完全相同还是截然不同，根据我们的指标机器应当能够给出与人类判断相似的答案”。

“深度学习在音频处理领域已经产生了巨大的影响，我们期望这一影响在未来十年能够变得更加深刻，”Finkelstein说，“但机器学习需要知道如何做……它需要一个损失函数。”

Finkelstei说在设计一个好的损失函数时，“需要一个全自动的方法来确定人们是否会说两段音频片段听起来相似”。因此，该团队接下来的努力方向就是开发一种自动方法来预测人类会如何回答这个问题。

目前，研究人员正在进一步完善该算法以实现实时语音增强，这一研究成果能够很好地应用于变焦对话或网络会议。

参考：

1.https://techxplore.com/news/2020-12-ai-latest-word-clearer-audio.html

2.https://daps.cs.princeton.edu/projects/HiFi-GAN/index.php?env-pairs=DAPS&speaker=f10&src-env=all

阅读更多内容

AI进入家庭看护，准确识别家人行为才是关键

智能系统在特定场景下准确识别人体的动作姿态，并对人体姿态进行分类，在人工智能研究领域，这一技术被称为人体行为识别，是智能监控、人机交互、机器人等诸多应用的一项基础技术。

中欧投资协定谈判,“欧”了！最新AI训练数据集等你签收

2020年12月30日，中欧领导人共同宣布如期完成中欧投资协定谈判。中欧双方在知识产权保护、市场准入、投资环境的透明度、改善劳工待遇标准、可持续发展等方面达成一致。云计算、人工智能、电信、计算机、生物技术、新能源等领域的企业将被允许进入双方市场。

录音音质差听不清？普林斯顿提出新算法HiFi-GAN或许可以帮上忙

上一篇

AI进入家庭看护，准确识别家人行为才是关键

下一篇

中欧投资协定谈判,“欧”了！最新AI训练数据集等你签收

录音音质差听不清？普林斯顿提出新算法HiFi-GAN或许可以帮上忙

近期内容

数据驱动进化：AI Agent如何重构手机交互范式？

垂域大模型时代：专业数据铸就行业智能底座

案例分享|高质量数据服务赋能智慧医疗3.0时代

上一篇

AI进入家庭看护，准确识别家人行为才是关键

下一篇

中欧投资协定谈判,“欧”了！最新AI训练数据集等你签收