当前位置:首页 > 新闻中心 > 媒体扫描

媒体扫描

中国科学报:《人机语音交流不是梦》

  • 发表日期:2014-05-27 【 【打印】【关闭】
  •   “你做得不错。”

      这样一句简单的话,如果语气不同,意思就可能完全不一样——可以是认可,也可以是质疑。

      如果机器能够处理不同的情感或者语气,那么就能够更好地理解人要表达的意思,也能够和人更友好地进行交互,让你不觉得是在和机器说话。中科院自动化所模式识别国家重点实验室研究员陶建华告诉《中国科学报》记者,这就是他们希望实现的应用。

      研究趋于成熟 

      陶建华课题组主要从事语音技术研究,包括语音合成、面向生理的语音生理发音、多模态人机对话、情感计算等等。

      传统语音处理通常只能处理陈述性语音,也就是朗读语音,而现实中人们说话大多是比较随意的,会有不同的语气,就像简简单单的一句“你做得不错”。

      他们的研究总体围绕语音技术这个主线来展开,即使是多模态人机对话和情感计算部分,也主要是围绕着以语音为主的多模态信息融合和情感语音处理等内容。“这样做可以让课题组的研究更为聚焦,研究也容易深入一点。”陶建华说。

      目前,陶建华课题组的论文在Google Scholar上统计的引用次数超过1100多次,SCI他引也超过100次。他告诉记者:“因为适合语音技术投稿的SCI期刊并不多,这个引用次数在国内从事语音技术研究的团队中也是很少见的。”

      针对语音合成研究,总体上看“拟人化”是长期目标,而他们“还有很多工作要做”。

      比如,如何让语音合成能够具有很好的口语特点,而不总是朗读语音,包括语序的重复、各种复杂的副语音现象;如何让语音合成能够表达丰富的情感;如何让语音合成完美地模拟一个特定人的声音,也就是语音合成的自适应等等。

      “这些研究目前比较初步,也是这一领域的研究难点。”陶建华告诉记者,这几年越来越大的数据量为他们提供了一些新的思路。

      在研究方向上,多年来他们始终围绕着长期坚持的主线,但也会根据当下的热点不断进行一些微调。“有些研究刚开始做的时候并没有完全结合当时的热点,而是根据自己的理解,这些工作并不一定会得到很多的注意。其实科学研究往往是一个逐渐成熟的过程。”

      技术用于生活 

      2005年,陶建华团队创立了国际情感计算及智能交互学术会议,现在这个会议在国际上已经有较大的影响力,每年都有超过200人参加。

      陶建华告诉记者,虽然这项工作算不上科研成果,但对他们的整体科研作用很大,也推动了情感计算这一研究方向的发展。

      随着这几年语音技术逐渐成熟,他们和企业建立了多方面的合作关系,三星、百度、腾讯和联想,业内的几家巨头都是他们的合作伙伴。“我们和百度的合作力度比较大,不仅把技术授权给他们,同时也为他们做很多技术上的定制,在百度语音云等产品中都能体现我们的技术。”陶建华说。

      2013年,联想推出的大部分智能手机基本都预装了陶建华团队研发的语音合成系统,包括S960、S920这些销量比较大的手机。

      同时,他们还与豆丁网联合研发有声电子书,目前用户数已经超过450万,每天活跃用户就达到近60万。

      此外,他们研发的极低编码率的语音编码技术也被成功应用于国防领域。

      有一款叫“争渡”的读屏软件,目前在盲人群体中很受欢迎。他们可以借助这个软件的语音功能,基本无障碍地使用电脑。这款软件在网上很容易下载到,而其中的语音合成系统正是来自陶建华团队。

      他们的这项技术被广泛应用于盲人阅读软件,比如计算所推出的盲人用龙芯笔记本和手语软件,用在了2008年奥运会的官方网站上。

      他们还在进行自适应技术的研发,即语音快速适应说话人的特点。其实,这个方向他们已经做了近10年,现在能够把一个人的声音变成另外一个人的声音,不仅在语音研究领域的国际顶级期刊上发表了论文,也在一些特定领域得到了应用。

      做事在于坚持 

      陶建华来到自动化所已经11年了,早在1993年,他读硕士期间就开始从事语音技术研究。他说未来还将一直沿着这个脉络做下去。

      十几年前,语音交互和多模态交互结合起来的研究就有人做过,但近几年来这方面的研究越来越少,陶建华认为主要原因是一直很难找到更好的多模态融合方法。

      “我们在选择这项研究的时候,也是面临着很多考验,比如开始很难得到一些大的项目支持。”

      尽管困难重重,他们还是找到了突破口,把多模态人机对话的方式进行了更细的分类融合,取得了很好的效果,论文也发表在SCI期刊上,并且获得了2013年和谐人机会议中的优秀论文奖。

      通过自己的努力,陶建华获得了业界的承认。他受邀担任了Speech Communication(语言交流)期刊的Subject Editor(主题编辑),整个期刊的Subject Editor一共只有10个人,历史上亚洲人担任这一职位的很少。

      对于自己从事的工作,陶建华看来,并不是要一味坚持,而是要有一个正确的理解和把握,所谓的坚持是在自信基础上的坚持。“任何研究的开展,都需要先进行详细的分析而不是简单地跟从热点,经过详细分析,如果认为是值得做的,就应该坚持下去。”

      http://www.cas.cn/xw/cmsm/201405/t20140526_4127028.shtml 

      (原载于《中国科学报》 2014-05-26 第6版 进展)