人工智能学院举办“面向语音识别和生成的语音预训练”科学前沿讲座
3月27日上午,中国科学院大学人工智能学院有幸邀请到了微软亚洲研究院高级研究员和研究经理刘树杰,在雁栖湖校区教一楼109教室为同学们带来科学前沿讲座——《面向语音识别和生成的语音预训练》。
近年来,随着人工智能技术的不断发展,语音识别和语音生成技术已经逐渐走进我们的生活中。为了进一步提高语音识别和生成的准确率和效率,研究人员开始探索面向语音识别和生成的语音预训练技术。刘树杰老师首先对语音识别、自然语言处理、语音生成、语音转换 等基础概念有一个框架性的简要介绍。并且介绍讲座主要内容为如何通过语音预训练增强语音的识别以及生成,具体涉及如何预训练编码器,预训练编码器解码器的框架、预训练解码器,编码器主要对应于语音识别,而解码器主要对应于语音生成。
除了基础概念的介绍,刘树杰老师还详细讲解了一些最新的语音预训练模型,其中包括了Wav2vec 2.0模型和HuBert模型。除了介绍这些预训练模型,刘树杰老师还提出了一个最近热门的研究思路,即将连续信号转化为离散信号,然后使用自然语言处理(NLP)的思路去处理。他解释说,这种方法能够更加高效地处理语音信号,并且可以借鉴NLP领域的一些技术手段来提高语音识别和生成的准确率和效率。
最后,刘树杰老师对语音识别做出了对未来的展望,尽管语音预训练该技术在实验室中已经取得了良好的成果,但仍需继续努力,致力于将该技术推向更高的水平,为人们提供更好的语音交互体验。在讲座的最后也激起了同学们对语音识别的兴趣以及热情的讨论。
专家信息:
刘树杰,微软亚洲研究院高级研究员和研究经理,2012年博士毕业于哈尔滨工业大学。2012年加入微软亚洲研究院,从事自然语言处理、语音处理以及机器学习相关工作。在自然语言处理和语音处理各顶级期刊和会议上发表论文100余篇,并合著《机器翻译》一书,参与编写《人工智能导论》一书。获得国际自然语言和语音处理评测比赛多项第一。担任多个国际会议审稿人及领域主席。其研究成果被广泛应用于Microsoft Translator、Skype Translator、Microsoft IME和微软语音服务等微软重要产品中。
责编 :贺静蕾