我校计算机学院刘瑞研究员在情感语音转换领域取得新进展2022-07-21 文字:计算机学院 摄影:计算机学院
情感语音转换(VC)旨在将中性语音转换为情感声音,同时保留语言信息和说话者的身份。我们注意到,将情感特征与其他语音信息(例如内容、说话者身份等)的解藕是实现高质量转换效果的关键。由于情感语音中声学特征的解藕更加复杂,因此面向中性语音的特征解藕工作无法很好的工作。
近日,我校蒙古文智能信息处理技术国家地方联合工程研究中心(蒙古文信息处理技术自治区重点实验室)刘瑞研究员与日本大阪大学科学与工业研究所Zhaojie Luo教授团队合作在国际信号处理领域TOP期刊《IEEE/ACM Transactions on Audio, Speech, and Language Processing》上发表了题为“Decoupling Speaker-independent Emotions for Voice Conversion Via Source-Filter Networks”的研究论文(DOI:10.1109/TASLP.2022.3190715)。
该论文针对情感语音转换的声学特征解藕问题开展研究,提出了一种基于“源-滤波器”模型的情感语音转换系统。具体来说,为了解决情感语音转换的特征解藕问题,该论文提出了一种新颖的基于Source-Filter(源-滤波器)模型的情感VC模型(简称SFEVC),以从音色和音调特征中准确过滤说话人独立的情感线索。SFEVC模型由多通道编码器、情感独立编码器、预训练的说话人相关编码器和相应的解码器组成。所有编码器模块都采用信息瓶颈自动编码器。此外,为了进一步提高各种情绪的转化质量,提出了基于二维VA空间的训练策略。实验结果表明,提出的SFEVC模型以及VA训练策略的表现均优于所有基线系统,并基于非平行数据在说话人无关的情感VC场景下实现了最优性能。
《IEEE/ACM Transactions on Audio, Speech, and Language Processing》期刊是是音频、声学、语言信号处理的顶级期刊,在中科院SCI期刊分区为一区TOP期刊,清华最新版计算机学术推荐列表中认定为A类刊物,2022最新影响因子4.364。我校计算机学院刘瑞研究员为该论文通讯作者,内蒙古大学为该论文通讯作者单位。该研究得到了2022年内蒙古大学骏马计划高层次人才引进项目(10000-22311201/002)的资助。
作者简介:刘瑞(个人主页:https://ttslr.github.io/),计算机学院骏马计划B1岗研究员,博士生导师。刘瑞研究员围绕人工智能、深度学习、表现力语音合成等内容进行了深入探索,在相关领域知名学术期刊发表论文20余篇,其中包括IEEE/ACM TASLP(JCR Q1区,SCI一区Top期刊)、IEEE Internet of Things Journal(JCR Q1区,SCI一区Top期刊)、Neural Networks(JCR Q1区,SCI二区期刊)、IEEE Signal Processing Letters(JCR Q1区,SCI二区期刊)和学术会议ICASSP(CCF-B,语音领域顶级会议)、InterSpeech(CCF-C,语音领域顶级会议)等。学术论文在业界产生广泛影响,论文累计引用二百余次,引用者包括来自美国卡耐基梅隆大学、英国剑桥大学、英国爱丁堡大学、日本名古屋工业大学、新加坡国立大学、新加坡科技与设计大学、中科院自动化所、香港中文大学、清华大学、西北工业大学等研究机构的国内外知名学者。
论文链接:https://ieeexplore.ieee.org/document/9829916
(编辑:李文娟 审核:吴栓虎)
上一条:国家民委副主任赵勇一行来我校铸牢中华民族共同体意识研究培育基地考察调研
下一条:第六届“马克思主义理论与当代——喜迎二十大与马克思主义未来发展”高层论坛在我校举行
【关闭】