学术活动

人工智能学院举办“面向语音识别和生成的语音预训练”科学前沿讲座

  • 5月10日上午,中国科学院大学人工智能学院邀请微软亚洲研究院首席研究员和研究经理刘树杰老师,在雁栖湖校区教一楼213教室为同学们带来科学前沿讲座——《面向语音识别和生成的语音预训练》。目前,基于预训练模型的语音处理方法在多个任务上取得了突破性的进展。在本报告中,刘树杰分别介绍了三种不同的预训练模型,即基于编码器的预训练模型,基于编码器-解码器框架的预训练模型和完全基于解码器的预训练模型。前两种预训练模型主要应用于语音识别相关的任务,而完全基于解码器的语言模型则主要用于更高质量的语音生成。

    518.01.jpg

    讲座中,刘树杰总结了语音和文本半监督学习的三个不同点。首先,语音是一个更长的序列,没有固定的段落边界,与文本数据不同,语音数据通常是连绵不断的,没有明确的分隔符号如空格或标点符号,这意味着在处理语音数据时确定短语或句子的边界比在文本中更为复杂;第二,语音是连续的,并没有固定的单元字典用于自监督学习;第三,语音处理任务需要包含正交信息,比如内容信息和说话者信息,即除了要处理语音内容的语义信息(比如单词和短语),语音处理任务还要考虑说话者的身份和特质,如口音、声音的音调和情感。

    518.02.jpg

    刘树杰提到对于编码器的一些语音预训练模型,即用于大量语音任务的WavLM、拥有标注的语音数据的UniSpeech以及用无标记文本数据的SpeechLM。刘树杰对他们的技术细节、损失函数、模型结构、实验结果比较等内容进行了详细讲解。

    518.03.jpg

    刘树杰介绍了用于编码-解码的语音预训练和仅仅用于解码器的语音预训练模型,即VALL-E、NAR、VioLA、SpeechX等模型。最后,刘树杰做了总结,提到目前语音预训练变得越来越受欢迎、预训练模型能够帮助几乎所有的语音处理任务、基于编解码器的编码方法为语音处理打开了新思路,并被用于所有的语音处理任务。讲座最后,刘树杰回答了同学们提出的许多问题。


    专家信息:

    刘树杰,微软亚洲研究院首席研究员和研究经理,2012年博士毕业于哈尔滨工业大学。2012年加入微软亚洲研究院,从事自然语言处理、语音处理以及机器学习相关工作。在自然语言处理和语音处理各顶级期刊和会议上发表论文100余篇,并合著《机器翻译》一书,参与编写《人工智能导论》一书。获得国际自然语言和语音处理评测比赛多项第一。担任多个国际会议审稿人及领域主席。其研究成果被广泛应用于Microsoft Translator、Skype Translator、Microsoft IME和微软语音服务等微软重要产品中。

    责编 : 高塬