论文笔记--理解conv-tasnet语音分离

青草 · 发表于 2025-5-10 07:14

登陆有奖并可浏览互动！

您需要登录才可以下载或查看，没有账号？立即注册

×

   一个入门语音分离小菜鸡的日记
   写此文的目的是记录自己的学习过程，一些经过，遇到问题以及解决问题的方法，存放在这里，方便自己以后复习以及自己的一些总结，如果此文对你有帮助，或者我写的有错误，请随时联系我。
我们提出了一个全卷积时域音频分离网络（Conv-TasNet），一个用于端到端时域语音分离的深度学习框架。Conv-TasNet使用一个线性编码器来生成一个语音波形的表示，该波形是为分离单个扬声器而优化的。通过对编码器输出应用一组加权函数（掩码）来实现说话人分离。然后，使用线性解码器将修改后的编码器表示反转回波形。该掩模是使用由叠加的一维扩展卷积块组成的时间卷积网络（TCN）来实现的，该网络允许在保持较小模型尺寸的同时对语音信号的长期相关性进行建模。所提出的Conv-TasNet系统在分离两个和三个说话人混合物方面明显优于以往的时频掩蔽方法。此外，ConvTasNet在两个说话人的语音分离中，通过客观失真度和主观质量两方面的评估，都超过了几种理想的时频幅度掩模。最后，Conv-TasNet具有更小的模型尺寸和更短的最小延迟，使其成为适合于离线和实时语音分离应用的解决方案。因此，这项研究代表了为实现真实世界语音处理技术的语音分离系统迈出的重要一步。
在时域语音分离出现之前，都在频域进行语音分离，大多数以前的语音分离方法都是在混合信号的时频（T-F，或频谱图）表示中制定的，该表示是使用短时傅立叶变换（STFT）从波形中估计出来的。T-F域语音分离方法的目的是从混合谱图中逼近单个源的干净谱图。这一过程可以通过使用非线性回归技术直接逼近混合物中每个源的谱图表示来完成，其中清洁源光谱图用作训练目标。或者，可以估计每个源的加权函数（掩模），以乘以混合谱图中的每个T-F盒以恢复各个源。
      虽然时频掩蔽仍然是语音分离中最常用的方法，但这种方法有几个缺点。首先，STFT是一种通用的信号变换，不一定是语音分离的最佳选择。第二，干净源相位的精确重建是一个非常重要的问题，相位的错误估计会给重建音频的精度带来一个上限。这一问题是显而易见的，即使在理想的清洁量谱图应用于混合物时，源的重建精度也不理想。尽管相位重建的方法可以用来缓解这个问题，但是该方法的性能仍然是次优的。第三，成功地从时频表示中分离需要对混合信号进行高分辨率的频率分解，这就需要计算STFT的长时间窗。这一要求增加了系统的最小延迟，从而限制了其在实时、低延迟应用中的适用性，例如在电信和可听设备中。例如，在大多数语音分离系统中，STFT的窗口长度至少为32ms，在需要更高分辨率谱图（大于90ms]的音乐分离应用中更大。
这些系统将用数据驱动的表示代替用于特征提取的STFT步骤，这些表示及其逆变换可以显式地设计为替换STFT和iSTFT。或者，特征提取和分离可以隐式地结合到网络结构中，例如通过使用端到端卷积神经网络（CNN）。这些方法从波形中提取特征的方式以及分离模块的设计都有所不同。这样的方法是时域音频分离网络（TasNet）。在TasNet中，混合波形采用卷积式编码器-解码器结构建模，该结构由一个对其输出具有非负性约束的编码器和一个用于将编码器输出反转回声音波形的线性解码器组成。TasNet中的分离步骤是通过为每个时间步的编码器输出找到每个源的加权函数（类似于时频掩蔽）来完成的。
我们提出了全卷积TasNet（Conv-TasNet），它在处理的各个阶段都只使用卷积层。由于时间卷积网络（TCN）模型的成功，Conv-TasNet使用堆叠的扩展一维卷积块来代替深LSTM网络进行分离步骤。卷积的使用允许在连续的帧或段上进行并行处理，从而大大加快了分离过程，并显著降低了型号尺寸。为了进一步减少参数个数和计算量，我们将原来的卷积运算替换为可分离的反褶积运算。我们表明，通过这些修改，Conv-TasNet在因果和非因果实现中都显著提高了与先前LSTM-TasNet相比的分离精度。此外，Conv-TasNet在信噪比（SDR）和主观（mean-opinion  score，MOS）两方面的分离精度都优于理想的时频幅度掩模，包括理想的二值掩模（IBM）、理想的比值掩模（IRM、[36]）和Winener滤波器型掩模（WFM）。
2、卷积时域音频分离网络
全卷积时域音频分离网络（Conv-TasNet）由三个处理阶段组成，如图1（A）所示：编码器、分离和解码器。首先，编码器模块用于将混合波形的短段转换为它们在中间特征空间中的对应表示。然后，该表示用于在每个时间步估计每个源的乘法函数（掩码）。然后，利用解码器模块对屏蔽编码器特征进行变换，重构源波形。

这是一个监督学习的过程：
encoder：类似fft，提取语音特征。
decoder：类似ifft，得到语音波形
separation过程：类似得到mask，通过mix*单个语音的mask，类似得到单个语音的一个语谱图。通过decoder还原出语音波形。

本文介绍了一种用于时域语音分离的深度学习框架&全卷积时域音频分离网络（Conv-TasNet）。该框架解决了STFT域语音分离的缺点，包括相位和幅度的分离、混合音频的次优表示和STFT计算的高延迟。
这些改进是通过用卷积编码器-解码器架构替换STFT来实现的。Conv-TasNet中的分离是使用一种时间卷积网络（TCN）结构和一种深度可分离卷积操作来解决深层LSTM网络的挑战。我们的评估表明，即使使用了目标扬声器的理想时频掩模，Conv-TasNet也明显优于STFT语音分离系统。此外，Conv-TasNet具有更小的模型大小和更短的最小延迟，这使得它适合于低资源、低延迟的应用。与STFT有一个定义良好的逆变换可以完美地重构输入不同，该模型的最佳性能是通过一个过完备的线性卷积编码器-解码器框架实现的。

原文地址：https://zhuanlan.zhihu.com/p/103433093

图文播报

[讨论] 论文笔记--理解conv-tasnet语音分离

登陆有奖并可浏览互动！

发表回复

浏览过的版块

官方推荐 /3

个人中心