当前位置:首页 > 科学传播 > 科普文章

科普文章

机器翻译的研究

  • 发表日期:2008-04-14 【 【打印】【关闭】
  • 所谓的机器翻译(machine translation, MT)是指利用计算机技术将一种语言翻译成另外一种语言的过程。在传统意义上讲,机器翻译一般指文本机器翻译,即将一种自然语言的文本翻译成另外一种自然语言的文本(text-to-text translation)。近几年来,随着语音技术和通讯技术的快速发展,语音翻译(speech translation)研究蓬勃兴起,并得到了快速进展。语音翻译是指利用计算机技术实现从一种自然语言的语音到另外一种自然语言的语音的翻译过程(speech-to-speech translation, SST)。由于大多数语音是以口语化形式表现的,例如,面对面的交谈、打电话、演说等,因此,语音翻译又称口语翻译(spoken language translation, SLT)。目前人们提到机器翻译概念时,在广义上可以涵盖文本翻译和语音翻译两种,文本翻译系统的输入和输出均为文本,而语音(口语)翻译系统的输入和输出均为语音。

       机器翻译是涉及人工智能、数学、语言学、计算语言学和语音技术等多种学科和技术的综合性研究课题,属于国际前沿领域,多年来一直被认为是信息社会对计算机技术最具挑战性的研究课题之一。因此,机器翻译研究的科学意义不言而喻。同时,机器翻译技术具有巨大的应用需求,随着经济全球化时代的到来,如何克服语言障碍已经成为国际社会共同面对的问题。美国Allied Business Intelligence(ABI)公司曾经对世界翻译市场做过调查,2005年的翻译市场规模已达220多亿美元。在欧盟委员会中,各机构每年的翻译费用达10亿多欧元,对于20种官方语言,每种语言每天需要80名口译人员。有关调查表明,目前中国有100多万翻译人员,其中科技翻译人员就达40多万人,国内翻译年产值大约在60亿元人民币。除此之外,机器翻译技术还对情报部门具有极大的诱惑力,因为日益激增的多语种政治、经济、军事等情报信息已使情报部门不堪重负,单单靠人工翻译和阅读已不可能。因此,美国国防预先研究计划局DARPA)和欧盟第六框架等都投入巨资开展这一技术的研究。由此可见,机器翻译具有极其广阔的应用前景。可以说,多年来机器翻译始终是国际学界、商界甚至军界共同角逐的必争之地。

    尤其值得注意的是,随着中国国力及其在世界舞台的影响日渐增强,汉语热正在世界范围内悄悄兴起,在可预见的将来汉语超过英语成为世界第一大强势语言已经成为很多学者和专家的共识。因此,在目前的机器翻译领域最受注目的研究首推汉英互译,在最重要的几个国际性机器翻译系统评测中,最受关注、参评系统最多的就是汉英/英汉翻译系统,多年来这一状况“高烧不退”。

       这里需要澄清的是,机器翻译的目的是要为人工翻译减轻负担和提高效率,在部分场景和任务下替代人工,而决非要彻底取代人工翻译,想要计算机完全替代人工完成一切翻译任务的企图,恐怕是一个永远都不可能实现的梦想。实际上,在上个世纪人们早就已经认识到,在机器翻译研究中实现人机共生(man-machine symbiosis)、人机互助比追求全自动的高质量翻译(full automatic high quality translation, FAHQT)更现实、更切合实际。针对日益剧增的多语种信息,让计算机粗略地处理一遍,经筛选之后,如果需要再由人工或者采用机助人译的方式完成细加工过程,被认为一种可行的处理办法。当然,“信、达、雅”永远都是人们孜孜以求的目标,但是,在人类对于自身大脑翻译的思维过程都还没有弄清楚以前,要求计算机高质量地自动翻译,甚至翻译小说、散文、成语或诗歌等文学作品,是完全不现实的,实际上,在许多情况下人类自己都做不到。因此,人与机器翻译系统之间应该是互补、互助的关系,而不是相互竞争。那种利用机器翻译系统的错误嘲笑、诋毁甚至阻止机器翻译研究的做法纯属愚蠢之举。

    自上个世纪50年代世界上第一个机器翻译实验系统诞生以来,机器翻译研究已经走过了五十多年的曲折历程。从目前国际研究现状来看,一方面,机器翻译的若干理论问题一直没有从根本上得到解决,许多方法和技术有待于进一步研究和探索,机器翻译系统的性能也确实不尽人意,无论是系统译文的质量,还是系统的自学习能力、知识库维护和更新能力,以及对各种非规范语言现象的处理能力等,都还有待于大幅度提高,因此,我们说机器翻译研究目前仍处于初级阶段(state-of-the-art)。但在另一方面,机器翻译已经在某些限定领域为人们提供了快捷方便的翻译服务,例如,天气预报翻译、产品说明书翻译等等,即使在无领域限制的网页在线翻译等方面,有些软件也在一定程度上提供了便利,而且计算机辅助翻译和译后编辑(post-editing)功能都为人工翻译提供了一定的帮助。因此,总括起来看,机器翻译既不像有些人批评的那么一无是处,也不像有些人吹捧的那么完美无缺。这些年来,无论是它给人们带来的希望还是失望,我们都必须客观地看到,机器翻译作为一个科学问题在被学术界不断深入研究的同时,企业家们已经利用它从市场上获得了丰厚的利润。

    我们自动化所自上个世纪90年代中期以来开始致力于语音翻译技术的研究,黄泰翼研究员和徐波研究员做了大量开创性的工作和许多高瞻远瞩的决策。2000年我们成功地完成了国家863课题“口语自动翻译方法研究”,并建立了面向旅游信息咨询领域的汉英、汉日口语对话翻译实验系统和旅馆预订领域的汉英口语自动翻译实验系统,并与日本松下公司高技术研究所合作研制开发了国际上第一个面向餐饮服务领域的汉-英-日口语自动翻译机原型系统(如图-1所示)。  

    200010月自动化所正式成为国际语音翻译先进研究联盟(Consortium of Speech Translation Advanced Research international, C-STAR)的核心成员,这也是到目前为止中国唯一的C-STAR核心成员。20023月我们与韩国电子通信研究院(ETRI)合作,率先研究开发了国际上第一个面向旅游信息咨询领域、基于普通手机的中韩双向语音翻译实验系统,并向公众演示(如图-2 所示)。2003年以自动化所为牵头单位完成的国家自然科学基金重点项目汉语话语翻译关键技术研究在项目结题评定中获得A级的优秀成绩。2004年自动化所作昙际豕歉刹斡胪瓿闪斯?/SPAN>863重大课题“奥运多语言智能信息服务系统关键技术及示范系统研究,与美国卡内基梅隆大学(Carnegie Mellon University, CMU)和德国卡尔斯鲁厄大学(The University of Karlsruhe, UKA)等单位合作研制了基于PDA的汉英双向语音翻译实验系统,分别于200452226日在第七届中国北京国际科技产业博览会上展示和在200471618日西班牙国际文化论坛上展示(如图-3所示),均获得了良好的社会效益。2005年,我所开发的汉英口语翻译系统在国际口语翻译系统评测(IWSLT)中在主要技术指标(BLEU)上获得了第一名的好成绩。自动化所与其他C-STAR核心成员联合开发的多语言口语语料库BTEC已经成为近几年来国际口语翻译系统评测的权威语料库。2006年起,自动化所作为牵头单位承担了国家“863目标导向项目“面向网络应用环境的口语翻译关键技术与系统研究”,旨在面向限定领域内跨语言通讯的应用场景,研究口语翻译关键技术和系统实现方法,建立口语语音识别、话语分析以及语音、语言信息融合的口语翻译新技术,实现限定领域内高水平汉英、汉日实时语音翻译原型系统。目前该项目正在大规模汉英口语语音、语言资源库建设,口语特性分析和识别技术,以及基于对话管理的口语翻译方法等方面进行深入研究和探索,进展顺利,并取得了初步的成果。从目前我们已经掌握的多语言口语对照语料的情况来看,无论在数量上,还是在对照语言的种类上,都是目前国际上规模最大的。

    由于计算机网络的迅速普及进一步扩大了文本机器翻译的需求,而近几年来统计机器翻译方法的快速发展,再次将机器翻译研究推向了一个新的高潮。在这一国际潮流的感召下,自动化所在语音翻译研究的基础上将研究内容扩展到新闻领域的通用文本机器翻译,并取得了快速的进展,尤其在机器翻译的理论模型和实现方法方面取得了较好的成果,其研究论文发表在Machine TranslationIEEE Transactions on Audio, Speech, and Language Processing等本领域国际权威学术刊物上,并获得了多项国家发明专利。以文本机器翻译为核心技术,自动化所作为牵头单位承担了国家支撑计划项目“多语言信息服务环境关键技术研究与应用”,旨在研究和集成开发英汉计算机辅助翻译系统,包括英汉网络在线翻译系统和面向专业翻译人员的英汉机助翻译平台,研究开发英汉跨语言检索查询接口系统,用于实现文献信息系统的英汉翻译和双语言检索服务,为多语言信息服务技术的全面推广和应用以及形成产业化产品奠定基础。目前这一项目正在有条不紊地快速进展。2007年我们再次与兄弟单位合作,联手申请了国家自然科学基金重点项目“融合语言知识与统计模型的机器翻译方法研究”,已顺利通过了答辩。

    鉴于多年来自动化所在语音、语言技术方面所取得的优异成绩,国际上很多著名的学术机构,包括美国的CMU、日本的国际电气通讯基础技术研究所(ATR)、法国的Grenoble信息与应用数学研究院机器翻译研究所(GETA, CLIPS-IMAG)和意大利的科学技术研究中心ITC-irst)等,都与我们建立了长期友好的合作关系,通过项目合作和学生联合培养等多种方式,共同推动着相关技术的快速发展和学术水平的不断提高。

       近几年来,自动化所在机器翻译和自然语言处理相关领域所取得的快速发展和丰硕成果再次表明,跟踪国际前沿理论方法,面向国家需求,建立密切的国内外合作关系,培养和开发独具特色的创新能力,脚踏实地、持之以恒,才是获得成功的基本前提。