200多年来,研究人员一直在寻找将声音分解为其基本成分的方法。1820年代,法国科学家JosephFourier提出,任何信号(包括声音)都可以使用足够数量的正弦波来构建。这些波听起来像口哨,每种都有自己的频率、电平和开始时间,是声音的基本组成部分。

声学研究人员将声音准确地分解为三个基本组成部分

然而,某些声音,例如长笛和人的呼吸声,可能需要数百甚至数千个正弦才能精确模仿原始波形。这是因为这样的声音包含谐波较少、噪音较大的结构,其中所有频率同时出现。一种解决方案是将声音分为正弦和噪声两种成分,用较少数量的啸叫正弦波并结合可变的噪声或嘶嘶声来完成模仿。

即使这种“完整”的二分量声音模型也存在声音事件开始平滑的问题,例如语音中的辅音或音乐中的鼓声。第三个组件名为瞬态,于2000年左右推出,用于帮助模拟此类声音的清晰度。仅瞬态听起来就像喀哒声。从那时起,声音通常分为三个组成部分:正弦波、噪声和瞬态。

阿尔托大学声学实验室的研究人员利用听觉感知、模糊逻辑和完美重建的思想,对正弦、噪声和瞬态的三分量模型进行了改进。他们的研究发表在《音频工程学会杂志》上。

分解反映了我们听到声音的方式

博士研究员LeonardoFierro和VesaVälimäki教授意识到人们听到不同成分以及单独的口哨声、咔哒声和嘶嘶声的方式很重要。如果咔嗒声及时传播,它就会开始响起并且听起来更吵;相比之下,专注于非常简短的声音可能会导致音调的一些损失。

这种来自听觉感知的洞察力与模糊逻辑相结合:在任何时刻,部分声音都可以属于正弦、瞬变或噪声三类中的每一类,而不仅仅是其中之一。以完美重构为目标,Fierro优化了声音的分解方式。

在增强方法中,正弦和瞬态是声音的两个相反的特性,并且声音不允许同时属于这两个类。然而,任何两种相反的成分类型仍然可能与噪声同时出现。因此,模糊逻辑的思想是以有限的方式出现的。噪声作为正弦波和瞬态波之间的模糊联系,描述了简单的咔嗒声和口哨声无法捕捉到的声音的所有细微差别。“这就像找到拼图中缺失的一块,将之前无法拼凑在一起的两个部分连接起来,”菲耶罗说。

在听力测试中将这种增强的分解方法与以前的方法进行了比较。十一位经验丰富的听众被要求单独聆听几首短音乐,以及使用不同方法从中提取的成分。

根据听众的评分,新方法成为分解大多数声音的获胜方法。只有当音乐声音中存在强烈的颤音时,例如在歌声或小提琴中,所有分解方法都会遇到困难,在这些情况下,以前的一些方法会更优越。

新分解方法的测试用例是声音的时间尺度修改,尤其是放慢音乐速度。这是在偏好听力测试中针对实验室自己以前的方法进行了测试,该方法在几年前的比较研究中被选为最佳学术技术。费耶罗的新方法再次成为明显的赢家。

“新的声音分解方法为声音处理开辟了许多令人兴奋的可能性,”Välimäki教授说。“目前我们主要关注的是声音的减速。令人惊讶的是,例如在体育新闻中,慢动作视频总是无声的。原因可能是当前减速音频工具的音质不够好.我们已经开始开发更好的时间尺度修改方法,它使用深度神经网络来帮助拉伸一些组件。”

高质量的声音分解还可以实现新型的音乐混音技术。其中之一可以实现无失真的动态范围压缩。也就是说,瞬态分量通常包含声音波形中最响亮的峰值,因此只需降低瞬态分量的电平并将其与其他分量混合即可限制音频的峰峰值。