用户名
UID
Email
密码
记住
立即注册
找回密码
只需一步,快速开始
微信扫一扫,快速登录
开启辅助访问
收藏本站
快捷导航
门户
Portal
社区
资讯
会议
市场
产品
问答
数据
专题
帮助
签到
每日签到
企业联盟
人才基地
独立实验室
产业园区
投资机构
检验科
招标动态
供给发布
同行交流
悬赏任务
共享资源
VIP资源
百科词条
互动话题
导读
动态
广播
淘贴
法规政策
市场营销
创业投资
会议信息
企业新闻
新品介绍
体系交流
注册交流
临床交流
同行交流
技术杂谈
检验杂谈
今日桔说
共享资源
VIP专区
企业联盟
投资机构
产业园区
业务合作
投稿通道
升级会员
联系我们
搜索
搜索
本版
文章
帖子
用户
小桔灯网
»
社区
›
A、行业资讯区
›
同行交流
›
论文笔记--理解conv-tasnet语音分离
图文播报
2025庆【网站十二周
2024庆中秋、迎国庆
2024庆【网站十一周
2023庆【网站十周年
2022庆【网站九周年
2021庆中秋、迎国庆
返回列表
查看:
3800
|
回复:
0
[讨论]
论文笔记--理解conv-tasnet语音分离
[复制链接]
青草
青草
当前离线
金桔
金币
威望
贡献
回帖
0
精华
在线时间
小时
雷达卡
发表于 2025-5-10 07:14
|
显示全部楼层
|
阅读模式
登陆有奖并可浏览互动!
您需要
登录
才可以下载或查看,没有账号?
立即注册
×
一个入门语音分离小菜鸡的日记
写此文的目的是记录自己的学习过程,一些经过,遇到问题以及解决问题的方法,存放在这里,方便自己以后复习以及自己的一些总结,如果此文对你有帮助,或者我写的有错误,请随时联系我。
我们提出了一个全卷积时域音频分离网络(Conv-TasNet),一个用于端到端时域语音分离的深度学习框架。Conv-TasNet使用一个线性编码器来生成一个语音波形的表示,该波形是为分离单个扬声器而优化的。通过对编码器输出应用一组加权函数(掩码)来实现说话人分离。然后,使用线性解码器将修改后的编码器表示反转回波形。该掩模是使用由叠加的一维扩展卷积块组成的时间卷积网络(TCN)来实现的,该网络允许在保持较小模型尺寸的同时对语音信号的长期相关性进行建模。所提出的Conv-TasNet系统在分离两个和三个说话人混合物方面明显优于以往的时频掩蔽方法。此外,ConvTasNet在两个说话人的语音分离中,通过客观失真度和主观质量两方面的评估,都超过了几种理想的时频幅度掩模。最后,Conv-TasNet具有更小的模型尺寸和更短的最小延迟,使其成为适合于离线和实时语音分离应用的解决方案。因此,这项研究代表了为实现真实世界语音处理技术的语音分离系统迈出的重要一步。
在时域语音分离出现之前,都在频域进行语音分离,大多数以前的语音分离方法都是在混合信号的时频(T-F,或频谱图)表示中制定的,该表示是使用短时傅立叶变换(STFT)从波形中估计出来的。T-F域语音分离方法的目的是从混合谱图中逼近单个源的干净谱图。这一过程可以通过使用非线性回归技术直接逼近混合物中每个源的谱图表示来完成,其中清洁源光谱图用作训练目标。或者,可以估计每个源的加权函数(掩模),以乘以混合谱图中的每个T-F盒以恢复各个源。
虽然时频掩蔽仍然是语音分离中最常用的方法,但这种方法有几个缺点。首先,STFT是一种通用的信号变换,不一定是语音分离的最佳选择。第二,干净源相位的精确重建是一个非常重要的问题,相位的错误估计会给重建音频的精度带来一个上限。这一问题是显而易见的,即使在理想的清洁量谱图应用于混合物时,源的重建精度也不理想。尽管相位重建的方法可以用来缓解这个问题,但是该方法的性能仍然是次优的。第三,成功地从时频表示中分离需要对混合信号进行高分辨率的频率分解,这就需要计算STFT的长时间窗。这一要求增加了系统的最小延迟,从而限制了其在实时、低延迟应用中的适用性,例如在电信和可听设备中。例如,在大多数语音分离系统中,STFT的窗口长度至少为32ms,在需要更高分辨率谱图(大于90ms]的音乐分离应用中更大。
这些系统将用数据驱动的表示代替用于特征提取的STFT步骤,这些表示及其逆变换可以显式地设计为替换STFT和iSTFT。或者,特征提取和分离可以隐式地结合到网络结构中,例如通过使用端到端卷积神经网络(CNN)。这些方法从波形中提取特征的方式以及分离模块的设计都有所不同。这样的方法是时域音频分离网络(TasNet)。在TasNet中,混合波形采用卷积式编码器-解码器结构建模,该结构由一个对其输出具有非负性约束的编码器和一个用于将编码器输出反转回声音波形的线性解码器组成。TasNet中的分离步骤是通过为每个时间步的编码器输出找到每个源的加权函数(类似于时频掩蔽)来完成的。
我们提出了全卷积TasNet(Conv-TasNet),它在处理的各个阶段都只使用卷积层。由于时间卷积网络(TCN)模型的成功,Conv-TasNet使用堆叠的扩展一维卷积块来代替深LSTM网络进行分离步骤。卷积的使用允许在连续的帧或段上进行并行处理,从而大大加快了分离过程,并显著降低了 型号尺寸。为了进一步减少参数个数和计算量,我们将原来的卷积运算替换为可分离的反褶积运算。我们表明,通过这些修改,Conv-TasNet在因果和非因果实现中都显著提高了与先前LSTM-TasNet相比的分离精度。此外,Conv-TasNet在信噪比(SDR)和主观(mean-opinion score,MOS)两方面的分离精度都优于理想的时频幅度掩模,包括理想的二值掩模(IBM)、理想的比值掩模(IRM、[36])和Winener滤波器型掩模(WFM)。
2、卷积时域音频分离网络
全卷积时域音频分离网络(Conv-TasNet)由三个处理阶段组成,如图1(A)所示:编码器、分离和解码器。首先,编码器模块用于将混合波形的短段转换为它们在中间特征空间中的对应表示。然后,该表示用于在每个时间步估计每个源的乘法函数(掩码)。然后,利用解码器模块对屏蔽编码器特征进行变换,重构源波形。
这是一个监督学习的过程:
encoder:类似fft,提取语音特征。
decoder:类似ifft,得到语音波形
separation过程:类似得到mask,通过mix*单个语音的mask,类似得到单个语音的一个语谱图。通过decoder还原出语音波形。
本文介绍了一种用于时域语音分离的深度学习框架&全卷积时域音频分离网络(Conv-TasNet)。该框架解决了STFT域语音分离的缺点,包括相位和幅度的分离、混合音频的次优表示和STFT计算的高延迟。
这些改进是通过用卷积编码器-解码器架构替换STFT来实现的。Conv-TasNet中的分离是使用一种时间卷积网络(TCN)结构和一种深度可分离卷积操作来解决深层LSTM网络的挑战。我们的评估表明,即使使用了目标扬声器的理想时频掩模,Conv-TasNet也明显优于STFT语音分离系统。此外,Conv-TasNet具有更小的模型大小和更短的最小延迟,这使得它适合于低资源、低延迟的应用。与STFT有一个定义良好的逆变换可以完美地重构输入不同,该模型的最佳性能是通过一个过完备的线性卷积编码器-解码器框架实现的。
原文地址:https://zhuanlan.zhihu.com/p/103433093
楼主热帖
小桔灯网业务合作须知!
如何注册小桔灯网VIP会员?
科研干货!一文搞懂细胞免疫荧光技术
[
免疫荧光技术
]
A股将再现IVD新上市企业?
[
同行交流
]
科研团队将啤酒酵母转化为「微型发光药物工厂」,这项技术对未来的药物研发意味着什么?
[
上转发光技术
]
QSR820与ISO13485 异同点有哪些?
[
ISO 13485认证
]
男生发什么朋友圈比较加分?
[
化学发光技术
]
网宿旗下爱捷云现已深入基因测序领域为行业客户提供算力服务,其财务状况和经营业绩如何?
[
同行交流
]
基因编辑相关研究最新进展「2025年6月第一期」
[
基因编辑技术
]
爱基百客再添DNBSEQ-T7,测序交付能力迈入新台阶
[
基因测序技术
]
回复
使用道具
举报
提升卡
返回列表
发表回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
浏览过的版块
悬赏任务
免疫荧光技术
精准医疗
时间分辨荧光技术
展会峰会
关闭
官方推荐
/3
【扫描左侧二维码关注微信】参与交流!
网站定期开展行业相关话题互动交流活动!对认真参与讨论的桔友将有金桔奖励!欢迎参与。
查看 »
IVD业界薪资调查(月薪/税前)
长期活动,投票后可见结果!看看咱们这个行业个人的前景如何。请热爱行业的桔友们积极参与!
查看 »
小桔灯网视频号开通了!
扫描二维码,关注视频号!
查看 »
返回顶部
快速回复
返回列表
客服中心
搜索
官方QQ群
洽谈合作
关注微信
微信扫一扫关注本站公众号
个人中心
个人中心
登录或注册
业务合作
-
投稿通道
-
友链申请
-
手机版
-
联系我们
-
免责声明
-
返回首页
Copyright © 2008-2024
小桔灯网
(https://www.iivd.net) 版权所有 All Rights Reserved.
免责声明: 本网不承担任何由内容提供商提供的信息所引起的争议和法律责任。
Powered by
Discuz!
X3.5 技术支持:
宇翼科技
浙ICP备18026348号-2
浙公网安备33010802005999号
快速回复
返回顶部
返回列表