腾讯AI Lab副主任俞栋到访自动化所做语音识别前沿问题报告----中国科学院自动化研究所

新闻中心

学术活动

腾讯AI Lab副主任俞栋到访自动化所做语音识别前沿问题报告

发布时间: 2017-06-05

【字体：大中小】

　　5 月29日，腾讯 AI Lab 副主任、西雅图人工智能研究室负责人俞栋受邀到访自动化所，并做《语音识别领域的前沿研究》主题报告，探讨分享了语音识别领域的 4 个前沿问题。报告会由徐波所长主持。

　　俞栋在报告中介绍了在语音识别当中的一些前沿的研究方向，主要包括以下四个：

　　一是更有效的序列到序列直接转换模型。报告介绍了序列到序列直接转换的研究目前的两个方向：CTC模型和带有注意力机制的序列到序列的模型。CTC模型要求输出序列的长度比输入序列短，这是非常适合语音识别问题的。而且CTC模型的优势是，可以相对自由的选择建模单元，而且在某些场景下是建模单元越大，识别效果越好。但是CTC的缺点是训练不稳定。带有注意力机制的模型目前在语音识别里还不是很成熟。它的主要问题是训练过程和识别过程不匹配；其次是带有注意力机制的模型和语音识别问题本身不匹配，该模型最早是在翻译问题中提出，注意力机制也主要是调序用的，但是语音识别不需要调序。报告称目前的解决方法是attention模型与CTC模型联合使用。

　　二是鸡尾酒会问题，即在非常嘈杂或者多人同时说话的环境中，人有一个非常好的特点，即能够把注意力集中在某一个人的声音上，屏蔽掉周围的说话声或者噪音，非常好地听懂所需关注之人的说话声音，而现在语音识别系统还无法做到这点。在该方向中，报告主要介绍了其最新的工作Permutation Invariant Training。但是该工作还只是使用了单麦克风的信息，未来的研究可以是如何有效利用多麦克风增强判别能力；有没有比LSTM更适合做语音分离任务的模型；有没有办法利用其他信息作为约束。

　　三是持续预测与适应的模型。报告称该类模型的主要特性是能发现一些规律，并将其变成长远记忆；能把说话人等的信息存储在模型中，在新的说话人时，可以快速适应。

　　四是前端与后端联合优化。目前的远场识别，前端主要依赖信号处理技术，且有可能丢失信息，而丢失的信息在后端语音识别引擎中无法恢复。报告探讨了可能的融合方法，让前端的信号处理与后端的语音识别引擎联合优化。

　　俞栋是语音识别和深度学习领域的著名专家。他于 1998 年加入微软公司，此前任微软研究院首席研究员，兼任浙江大学兼职教授和中科大客座教授。迄今为止，他已经出版了两本专著，发表了 160 多篇论文，是 60 余项专利的发明人及深度学习开源软件 CNTK 的发起人和主要作者之一。俞栋曾获 2013 年 IEEE 信号处理协会最佳论文奖。现担任 IEEE 语音语言处理专业委员会委员，之前他也曾担任 IEEE/ACM 音频、语音及语言处理汇刊、IEEE 信号处理杂志等期刊的编委。

附件：

新闻中心

腾讯AI Lab副主任俞栋到访自动化所 做语音识别前沿问题报告

腾讯AI Lab副主任俞栋到访自动化所做语音识别前沿问题报告