机器翻译方法的研究现状

第33卷第2期

2004年6月内蒙古师范大学学报自然科学(汉文) 版Journal of Inner Mongolia Normal University (Natural Science Edition ) Vol. 33No. 2J une 2004

机器翻译方法的研究现状

史树敏

(内蒙古师范大学计算机与信息工程学院, 内蒙古呼和浩特010022)

摘 要:. 要困难和技术难点.

关键词:自然语言; ; ; 中图分类号:2A :1001228735(2004) [1**********]5

, 虽然目前还没有完全实现机器翻译代替人工翻译的目标, 但已经取得了很大的成就[1~3]. 本文综述了机器翻译方法的现状, 分析了几种常见的机器翻译方法的特点和适用性, 以及机器翻译面临的主要困难和技术难点.

1 机器翻译方法

机器翻译的重要特点是处处体现了机器的思维方式, 所有方法都有一种心理学的解释, 但都是对人的思维过程的某一个侧面在某种程度上的模拟. 如最早的图灵试验, 在检验机器是否能思维时, 就是对行为主义心理学进行的定义测试和解释. 每种机器翻译方法都有其适用性, 如基于实例的方法和基于统计的方法就属于“经验主义”的方法范畴. 所谓经验主义(Rationalism ) 是指以大规模语料库的分析为基础的方法, 又称为基于语料(Corpus 2Based ) 的方法, 分为基于统计(Statistics 2Based ) 和基于实例(Example 2Based ) 两种方法. 他们通过大规模的双语或多语料进行概率运算, 依照各语言要素间的相似程度来构造语言模型, 从而进行机器翻

(Empiricism ) , 它是指以生成语言学为基础的方法, 也称为基于规则译; 与“经验主义”对应的是“理性主义”

(Ruler 2Based ) 的方法, 这是传统的也是一直占主导地位的机器翻译方法, 又可分为基于转换(Transfer 2Based ) 和基于中间语言(Interlingua 2Based ) 两种方法. 通过人工或机器辅助, 先构造供翻译用的词语信息库和句法语义规则库, 通过知识表示、知识推理、分析生成等步骤来进行机器翻译. 经验主义方法的特点是较少对源语言和目标语言进行分析, 而是直接在词串上进行处理[4,5]. 目前, 机器翻译系统主要有基于规则转换的系统、基于实例的经验系统和基于词转换的统计系统[6], 呈现出三足鼎立的局面. 每种方法各有千秋, 但又都不能胜任一切.

1. 1 基于规则的机器翻译方法

自从Chomsky 提出转换生成语法以来, 基于规则的方法成了机器翻译研究的主流. 虽然统计方法的崛起对规则方法形成了一定的冲击, 但在已有的商品化机器翻译系统中, 很少有哪个系统声称自己采用的是纯统计(或语料库) 的方法. 基于规则的方法现在已有了很大的变化, 传统的规则方法在规则获取方面主要依靠语言学家总结规则进行调试, 而现在更加注重从语料库中获取规则, 如采用错误驱动的学习算法. 另外, 传统的规则方法往往偏重于描述粗粒度、全局化、大范围的语言学知识, 现在的方法则呈现出“小规则库、大词典”的趋势, 更加重视描述细粒度、局部化、小范围的语言学知识. 在知识表示方面, 为了以更小的粒度, 更准确地对翻译知识进行描述, 一般要对单纯的与上下文无关的规则加以改进. 一种方法是采用特征结构合一算法, 另一种是采用词汇化的方法对规则细化, 后者就是下面将要提到的基于模板的方法. 另外, 传统的规则方法往往采用非此即彼的确定性原则, 系统的鲁棒性比较差, 现在方法一般都引入各种概率或评分函数, 对提高

收稿日期:2003-06-29

作者简介:史树敏(1978-) , 女, 内蒙古包头市人, 内蒙古师范大学硕士研究生.

   ・166・内蒙古师范大学学报自然科学(汉文) 版第33卷 系统的鲁棒性有明显的效果.

1. 2 基于统计的机器翻译方法

基于统计的机器翻译方法和基于实例的机器翻译方法都是使用语料作为翻译知识的来源. 基于统计的机器翻译方法源于Weaver 在1947年提出的把翻译看成是一种解码的过程“, One naturally wonders if the problem of translation could conceivably be treated as a problem in cryptography. When I look at an article in Russian , I say ‘:this is really written in English ,but it had been coded in some strange symbols. I will now pro 2

[7]ceed to decoded ’”. Weaver 认为, 语言的翻译过程可以抽象成编码和解码的过程, 符号的东西一旦有了数

学的表示, 就可以用计算机来自动处理, 也就是具有了可计算性. IBM 公司的Brown 等人提出的, , 解码. 假设一段源语言文本S , , T S 经过某种编码得到的, T :S →噪音信道→T.

; T 在信道意义上是输出, HMM (隐马尔可夫模型) , 这一模型在词性标注它的基本公式为S =max (P (S ) P (T |S ) ) , 其中P (S ) 是源语言文本S 出现的概率, 称为语言模型, P (T |S ) 是源语言的文本S 翻译成目标语言T 的概率, 称为翻译模型. 统计机器翻译的问题被分解为3个问题, 一是语言模型P (S ) 的参数估计, 二是翻译模型P (T |S ) 的参数估计, 三是匹配问题, 即寻找最佳译文. 这个基本方程具有非常重要的意义, 但从理论上讲该模型只考虑了词与词之间的线形关系. 如果在考虑语言模型和翻译模型时, 将句法结构或语法结构考虑进去, 效果可能会更好. 统计方法的前提是建立一个翻译过程的数学模型, 但目前尚没有一种理想的统计模型.

1. 3 基于实例的机器翻译(EBM T ) 方法

基于实例的机器翻译思想是日本著名机器翻译专家长尾真(Makoto Nagao ) 于1985年在《Translation by Analogy 》中首次提出的, 其基本思想是不通过深层的分析, 仅通过已有的经验知识, 通过类比原理进行翻译. 基于实例的机器翻译方法的特点是:①系统中知识以翻译实例和语义词典等形式存在, 系统易维护, 可以利用增加实例和词汇的方式很容易地扩充系统; ②若利用较大的翻译实例库或输入与实例精确匹配时, 译文质量比较高; ③避免了基于规则的机器翻译必须进行的深层次语言学分析, 这在翻译策略上尤为吸引人; ④语种相关知识很少, 只要记忆库中存在外形与输入相似的句子, 即可匹配. EBM T 对于相同或相似的文本, 有非常显著的翻译效果, 随着例句库规模的增加, 其作用也愈显著.

基于实例的翻译有许多优点, 在很多地方有相当大的潜力, 是近年来研究的热点之一. 但是, 由于语料库规模的限制,EBM T 很难达到高的匹配率, 面临的主要问题是实例的自动对齐, 就是将语料库中源语言文本和目标语言文本中意义相同的意群通过算法对应起来. 20世纪80年代以来, 双语语料的自动对齐技术有了很大的发展, 国内外很多研究人员都做了大量工作. 根据意群的大小可以分为段落对齐、句子对齐、短语对齐、词和字的对齐, 而要进行翻译, 至少要做到句子对齐. 由于意群的大小不同和双语的不同, 现有的段落对齐和句子对齐算法所利用的信息有长度信息、位置信息、词根信息、词性信息等, 或者几种信息相结合. 如G ale [8]和Brown [9]分别提出了基于句子长度的句子对齐算法,Church [10]提出了基于字符匹配的文本对齐算法. 从理论上讲, 对齐单位越小, 匹配准确率越高, 但加工深度和成本会相应增加, 系统的可扩充性也会变差[11]. 然而, 词汇一级的对齐技术远比句子对齐困难, 原因在于在词汇一级源语言中的词序在目标语言中不再保留, 两种语言文本在词汇一级的对应关系也比句子一级的对应关系更为复杂[12]. 另外, 诸如实例匹配的相似度、语料库的规模建设等都是基于实例的机器翻译需要解决的问题. 因此, 至今为止很少有翻译系统采用单纯的基于实例的机器翻译方法.

1. 4 基于模板(模式) 的机器翻译方法

一般把Template 2based M T 译作基于模板的机器翻译方法, 把Pattern 2based M T 译作基于模式的翻译方法. 这两种方法已被广泛采用, 统称为基于模板的方法, 其基本特点是:①表达翻译知识的基本数据形式为模板; ②模板实际上是一种词汇化的规则. 一般单语模板是由常量和变量组成的序列. 常量表示具体的词汇(终结符) , 变量表示一类词和短语(非终结符) . 从形式上看, 这与一个短语结构规则没有本质上的区别,

 第2期史树敏:机器翻译方法的研究现状   ・167・但从工程实践的角度, 传统的基于规则的方法一般很少把具体的词语写进规则中去; ③一个翻译模板由两个双语及其变量的映射关系组成; ④从知识的粒度看, 模板是介于规则和实例之间的一种表示, 比规则更具体, 而比实例更抽象; ⑤与EBM T 相比, 一个明显的区别是基于模板的方法在翻译中不直接使用翻译实例, 从实例中获取的知识都存储在翻译模板中. 基于模板的方法综合了规则和实例两种方法的优点, 但它的缺点是模板的通用化受限于某一领域, 在跨领域或者大规模的应用中, 很难做到模板的通用化, 并且要得到较好的覆盖率也要求有很多模板.

1. 5 基于有限状态自动机的机器翻译方法

有限状态自动机(FSA ) 是一种成熟的计算工具, , 如多关键字匹配, 语法/句法分析, 词性标注等. FSA , 法, 转录机则是在识别的同时进行输出, 具有翻译功能, , 单个有限状态识别机的能力等价于, 于Chomsky HMM 模型.

1. 6 T 方法可以取得令人满意的效果, 于是多引擎的思想就自然而然地成为一种提高机器翻译质量的手段. Robert Frederking [13]于1994年提出了一种典型的多引擎机器翻译方法, 其基本思想是:①多个翻译引擎同时对输入的句子进行翻译, 不仅对整句进行, 同时对句中任何一个片段也给出对应的译文, 并对这些译文片段给出一个评分; ②各个翻译引擎共享一个类似chart 的数据结构, 根据其源文片段所处的位置, 将这些译文片段放在这个公共的chart 结构中; ③对各个引擎给出的片段评分进行一致化处理, 使之具有可比较性; ④采用一个动态规划算法(chart walk 算法) 选择一组刚好能覆盖整个源文输入句子, 同时又具有最高总分的译文片段作为输出.

Fuji Ren 在机器翻译系统中所使用的多翻译引擎的策略也是先把句子切成短语, 再使用多个翻译引擎来对其进行翻译, 然后挑出评分最高的结果, 最终组合成译文[14]. 但该系统的多翻译引擎处理, 没有一个明确的组织结构, 系统扩展比较复杂, 翻译引擎对资源的占用缺乏管理. 目前, 多引擎方法在M T 系统的开发中已得到广泛采用, 只是具体应用模式有所差别.

综合以上各种方法, 基于规则的方法可以事先不建立语料库, 但它所描述的知识粒度太大, 很难将规则全面地覆盖某个领域的各种语言现象; 基于统计的方法必须事先建立一个语料库, 具有很好的一致性和较高的覆盖率, 但它的知识获取机制不同于语言学研究, 所以难以利用语言学成果来改进通过统计方法获得的知识; 规则和统计相结合的方法有明显的优点, 完全可以尝试规则与统计相结合的目标语生成策略[15], 但如何结合才能取得更佳效果, 并无一致的看法. 翻译知识获取问题仍然是机器翻译的瓶颈, 一方面, 通过传统的语言学家内省的方法难以获得足够的语言学知识, 另一方面, 纯粹通过语料库的统计数据稀疏问题也很难克服. 尤其是考虑到深层的翻译知识, 如果要通过对语料库的统计来获得, 必然要对语料库进行大规模的深度加工, 其工作量之大是难以想象的. 但语料库语言学的兴起和不断发展, 已为句法分析知识的获取和语法推导研究的进一步开展提供了很好的基础[16].

2 机器翻译的技术难点

机器翻译集成了自然语言处理学科中各个分支的诸多难题, 由于词形分析、词性标注、句法分析、语义分析都存在着不同程度的歧义, 使得机器翻译在一些基本问题解决之前很难获得重大的突破. 机器翻译中存在的主要问题是[17,18]:

(1) 一词多义. 无论是汉语还是西方语言都普遍存在一词多义现象. 在机器翻译过程中, 有时候需要首先判断一个词的具体词义以及在对应的语言中的生成词汇, 但任何两种不同的语言之间都不会存在词汇语义上完全的一一映射关系, 因为语言在自身进化中为了表达上的需要, 往往会在词汇的本意基础上派生出多个引申义, 从而产生了一词多义现象. 针对这种情况, 解决的方法是词义消歧(Word Sense Disambiguation ) , 又叫词义标注, 就是对文本中每个词根据所属上下文给出它所属的语义编码. 目前, 多义词排版的研究尚处于初级阶段, 英语的多义词排版方法主要有人工智能方法、基于词典的方法和基于语料库的方法[19], 例如,

   ・168・内蒙古师范大学学报自然科学(汉文) 版第33卷 Yarowsky 提出的基于义类词典《International Thesaurus 》的词义消歧方案[20]; Luk 根据《Oxford Advanced Learner πs Dictionary 》中的释义文本来判断多义词在上下文中的词义[21].

(2) 词性的兼类. 词性是词汇的重要属性之一, 由于上述同样的原因, 多数词都存在词性兼类现象. 兼类在理论上指的是有些词具有两类或两类以上的句法分布特征, 这些词属于不同的类, 简称兼类[22]. 所以, 尽管在一个句子内部, 某个词的词性通常是确定的, 但由于该词的词性与其上下文关联, 在对一个句子之中的词汇进行词性标注时, 往往不能保证得到完全正确的结果. 所谓词性标注就是在给定句子中判定每个词的语法范畴(Grammat 2icalategory ) , 从而确定其词性的过程. 词性自动标注就是兼类词的自动词类歧义排除[23,24].

(3) 短语结构歧义. 发生短语结构歧义的原因是名词、, 导致不同的附着方法都可能会产生合理的语义. 如“咬死/猎人的狗”/狗”词性解析都具有合理的语义, . 题, . 翻译, , 在系统还没有能力辨别结构歧义的情况下, 采用“以歧义

[25]对歧义”. 但是, 单纯在语法甚至语义层面上, 消除歧义是非常困难的.

(4) 译文质量难以保证. 歧义辨别和语义筛选等问题制约了译文质量的提高, 主要原因是作为机器翻译研发基础的理论研究滞后[26]. 目前, 整个翻译系统主要是在句法层面上搭建的, 系统使用的有限的语义信息是用来为句法层面服务的, 目标语的生成仅仅依靠从源语言做简单的句法结构转换, 而这是远远不够的[27]. 另外, 系统使用的语言规则仍以传统语法为基础, 知识粒度太粗, 不能准确地反映自然语言的某些复杂特性[28]. 所以, 译文质量至今没有取得实质性的进展, 很多50年前未解决的问题如今依然存在. 现有机器翻译的进展更多地依靠计算机资源的发展, 在翻译方法上还没有取得实质性的突破, 而在辅助资源和核心方法上, 后者具有更直接的意义.

总之, 机器翻译面临的困难主要包括表层困难和深层困难. 表层的困难之一是自然语言与计算机语言不同, 语法现象常有例外, 使得计算机中需要存储的语法现象庞大得难以实现; 另一个表层困难是上面提到的一词多义性. 在自然语言中, 一个词可以有多种含义, 而一种含义也可以用多个词来表达, 在众多语义中选择一个最佳表达, 对计算机来说是相当困难的. 但人们在用自然语言会话时, 对一词多义所产生的困难几乎没有觉察, 因为他们在会话过程中可以理解这些语义, 而计算机却很难做到这一点, 这就是一种深层次的困难.

[29]从不理解状态进入理解状态的过程称之为“解释学的循环”, 怎样在机器上实现“解释学的循环”也是一个

很困难的问题, 短期是难以实现的.

参考文献:

[1] John Hutchins. Towards a new vision for M T [R ].Introductory speech at the “M T Summit Ⅷ”,2001.

[2] 董振东. 中国机器翻译的世纪回顾[EB/OL ].中国计算机世界,fttp ://tech. sina. com. cn/soft/2000-07-06/478. hml ,

2000-07-06.

[3] 陈肇雄, 黄河燕. 多语机器翻译及其系列应用系统研究进展[A].中国中文信息学会20周年学术会议论文集[C].北

京:清华大学出版社,2001. 11.

[4] 冯志伟. 计算语言学[M ].北京:商务印书馆,2001.

[5] 陈毅东, 李堂秋, 郑旭玲. 融合理性主义方法和经验主义方法的思路初探[A ].机器翻译研究:2002年全国机器翻译研

究会论文集[C].北京:电子工业出版社,2002. 116-123.

[6] 单玉秋. 汉英辅助翻译系统用户需求调查及源语言辅助分析技术[A ].机器翻译研究:2002年全国机器翻译研究会论

文集[C].北京:电子工业出版社,2002. 15-18.

[7] 冯志伟. 计算语言学[M ].北京:商务印书馆,2001. 43.

[8] G ale W ,Church K. A program for aligning sentence in bilingual corpora [A].Proceedings of the 29th Annual Meeting of the

Association for Computational Linguistics [C].Berkeley ,CA ,1991. 177-184.

[9] Brown P ,Mercer R. Aligning Sentences in Parallel Corpora [A ].Proceedings of the 29th Annual Meeting of the Association

for Computational Linguistics [C].Berkeley ,CA ,1991. 169-176.

 第2期史树敏:机器翻译方法的研究现状   ・169・

[10] Church K. Char 2align :Aprogram for aligning Parallel texts at the character level [A].Proceedings of the 31st Annual Meet 2

ing of the Association for Computation Linguistics [C].Columbus ,Ohio ,1993. 1-8.

[11] 陈博兴, 杜利民. 基于双语对齐口语语料的翻译词典的自动生成[J].计算机学报,2003,26(3) :275-280.

[12] 常宝宝. 基于统计的翻译等价词对抽取研究[J].计算机学报,2003,26(5) :616-621.

[13] Robert Frederking ,Sergei Nirenburg. Three Heads are Better than One [A].Proceeding of the Fourth Conference on Applied

Natural Language Processing Stuttgart [C].G ermany ,1994. 95-100.

[14] Fuji Ren ,Hongehi Shi ,Shingo Kuroiwa. A New Machine Translation Approach Using Multiple Translation English and Sen 2

tence Partitions. Systems ,Man ,and Cybernetics ,2001[J].IEEE International Conference ,2001,3:1699-1704.

[15] 郭宏蕾, 胡岗. 统计与规则相结合的目标语言生成策略[A].机器翻译研究:2002[C].

北京:电子工业出版社,2002. 110.

[16] Lu Y a 2juan ,Li Sheng , Zhao Tie 2J une Automatically Bilingual Language

Model [J].Chinese Journal of ,26(-[17] 徐波. 、[C].北京:科学出版社,2002. 206-210.

[18] 刘群, ].中文信息处里国计会议论文集[C].北京:清华大学出版社,1998.

[19] 刘开瑛. [A].计算语言学进展与应用[C].北京:清华大学出版社,1995.

[20] Y arowsky ,David. Decision Lists for Lexical Ambiguity Resolution :Applicationto Accent Restoration in S panish and French

[A].ACL eds. The 32nd Annual Meeting of Association for Computational Linguistics [C].Las Cruces ,NM :ACL,1994. 88-95.

[21] Luk ,Alpha K. Statistical Sense Disambiguation with Relatively Small Corpora Using Dictionary Definitions [A ].ACL eds.

The 33rd Annual Meeting of ACL [C].Cambridge ,Massachusetts ,1995. 181-188.

[22] 刘开瑛. 中文文本自动分词和标注[M ].北京:商务印书馆,2001.

[23] 刘开瑛, 郑家恒, 周丽娜. 汉语词类标注规则的获取技术[A ].计算语言学研究与应用[C ].北京:语言学出版社,

1993.

[24] 王挺, 陈火旺. 一种自适应词性标注方法[M ].软件学报,1997,8(12) :937-943.

[25] 冯志伟. 机器翻译系统消歧功能测试[A].机器翻译研究:2002年全国机器翻译研究会论文集[C].北京:电子工业出

版社,2002. 224-246.

[26] 刘倬. 机器翻译的发展和突破[A].机器翻译研究:2002年全国机器翻译研究会论文集[C].北京:电子工业出版社,

2002,1-6.

[27] 单玉秋. 汉英辅助翻译系统用户需求调查及源语言辅助分析技术[A].机器翻译研究:2002年全国机器翻译研究会论

文集[C].北京:电子工业出版社,2002. 15-22.

[28] 段绮丽, 段自宓. 机器翻译中自然语言的梯级表示模型[A].机器翻译研究:2002年全国机器翻译研究会论文集[C].

北京:电子工业出版社,2002,132-135.

[16] 赵南元. 认知科学与广义进化论[M ].北京:清华大学出版社,1994.

APPROACHES OF MACHIN E TRANSLA TION

SHI Shu 2min

(College of Com puter and Inf orm ation Engineering , Inner Mongolia Norm al U niversity , Huhhot 010022, China )

Abstract :Through a analysis of the difficulties and problems that the machine translation is facing with ,the characteristics and applicability of machine translation methods that are often used are discussed.

K ey w ords :natural language processing ; machine translation technology ; translation method ; characteris 2tic ; difficulty point

【责任编辑陈汉忠】

第33卷第2期

2004年6月内蒙古师范大学学报自然科学(汉文) 版Journal of Inner Mongolia Normal University (Natural Science Edition ) Vol. 33No. 2J une 2004

机器翻译方法的研究现状

史树敏

(内蒙古师范大学计算机与信息工程学院, 内蒙古呼和浩特010022)

摘 要:. 要困难和技术难点.

关键词:自然语言; ; ; 中图分类号:2A :1001228735(2004) [1**********]5

, 虽然目前还没有完全实现机器翻译代替人工翻译的目标, 但已经取得了很大的成就[1~3]. 本文综述了机器翻译方法的现状, 分析了几种常见的机器翻译方法的特点和适用性, 以及机器翻译面临的主要困难和技术难点.

1 机器翻译方法

机器翻译的重要特点是处处体现了机器的思维方式, 所有方法都有一种心理学的解释, 但都是对人的思维过程的某一个侧面在某种程度上的模拟. 如最早的图灵试验, 在检验机器是否能思维时, 就是对行为主义心理学进行的定义测试和解释. 每种机器翻译方法都有其适用性, 如基于实例的方法和基于统计的方法就属于“经验主义”的方法范畴. 所谓经验主义(Rationalism ) 是指以大规模语料库的分析为基础的方法, 又称为基于语料(Corpus 2Based ) 的方法, 分为基于统计(Statistics 2Based ) 和基于实例(Example 2Based ) 两种方法. 他们通过大规模的双语或多语料进行概率运算, 依照各语言要素间的相似程度来构造语言模型, 从而进行机器翻

(Empiricism ) , 它是指以生成语言学为基础的方法, 也称为基于规则译; 与“经验主义”对应的是“理性主义”

(Ruler 2Based ) 的方法, 这是传统的也是一直占主导地位的机器翻译方法, 又可分为基于转换(Transfer 2Based ) 和基于中间语言(Interlingua 2Based ) 两种方法. 通过人工或机器辅助, 先构造供翻译用的词语信息库和句法语义规则库, 通过知识表示、知识推理、分析生成等步骤来进行机器翻译. 经验主义方法的特点是较少对源语言和目标语言进行分析, 而是直接在词串上进行处理[4,5]. 目前, 机器翻译系统主要有基于规则转换的系统、基于实例的经验系统和基于词转换的统计系统[6], 呈现出三足鼎立的局面. 每种方法各有千秋, 但又都不能胜任一切.

1. 1 基于规则的机器翻译方法

自从Chomsky 提出转换生成语法以来, 基于规则的方法成了机器翻译研究的主流. 虽然统计方法的崛起对规则方法形成了一定的冲击, 但在已有的商品化机器翻译系统中, 很少有哪个系统声称自己采用的是纯统计(或语料库) 的方法. 基于规则的方法现在已有了很大的变化, 传统的规则方法在规则获取方面主要依靠语言学家总结规则进行调试, 而现在更加注重从语料库中获取规则, 如采用错误驱动的学习算法. 另外, 传统的规则方法往往偏重于描述粗粒度、全局化、大范围的语言学知识, 现在的方法则呈现出“小规则库、大词典”的趋势, 更加重视描述细粒度、局部化、小范围的语言学知识. 在知识表示方面, 为了以更小的粒度, 更准确地对翻译知识进行描述, 一般要对单纯的与上下文无关的规则加以改进. 一种方法是采用特征结构合一算法, 另一种是采用词汇化的方法对规则细化, 后者就是下面将要提到的基于模板的方法. 另外, 传统的规则方法往往采用非此即彼的确定性原则, 系统的鲁棒性比较差, 现在方法一般都引入各种概率或评分函数, 对提高

收稿日期:2003-06-29

作者简介:史树敏(1978-) , 女, 内蒙古包头市人, 内蒙古师范大学硕士研究生.

   ・166・内蒙古师范大学学报自然科学(汉文) 版第33卷 系统的鲁棒性有明显的效果.

1. 2 基于统计的机器翻译方法

基于统计的机器翻译方法和基于实例的机器翻译方法都是使用语料作为翻译知识的来源. 基于统计的机器翻译方法源于Weaver 在1947年提出的把翻译看成是一种解码的过程“, One naturally wonders if the problem of translation could conceivably be treated as a problem in cryptography. When I look at an article in Russian , I say ‘:this is really written in English ,but it had been coded in some strange symbols. I will now pro 2

[7]ceed to decoded ’”. Weaver 认为, 语言的翻译过程可以抽象成编码和解码的过程, 符号的东西一旦有了数

学的表示, 就可以用计算机来自动处理, 也就是具有了可计算性. IBM 公司的Brown 等人提出的, , 解码. 假设一段源语言文本S , , T S 经过某种编码得到的, T :S →噪音信道→T.

; T 在信道意义上是输出, HMM (隐马尔可夫模型) , 这一模型在词性标注它的基本公式为S =max (P (S ) P (T |S ) ) , 其中P (S ) 是源语言文本S 出现的概率, 称为语言模型, P (T |S ) 是源语言的文本S 翻译成目标语言T 的概率, 称为翻译模型. 统计机器翻译的问题被分解为3个问题, 一是语言模型P (S ) 的参数估计, 二是翻译模型P (T |S ) 的参数估计, 三是匹配问题, 即寻找最佳译文. 这个基本方程具有非常重要的意义, 但从理论上讲该模型只考虑了词与词之间的线形关系. 如果在考虑语言模型和翻译模型时, 将句法结构或语法结构考虑进去, 效果可能会更好. 统计方法的前提是建立一个翻译过程的数学模型, 但目前尚没有一种理想的统计模型.

1. 3 基于实例的机器翻译(EBM T ) 方法

基于实例的机器翻译思想是日本著名机器翻译专家长尾真(Makoto Nagao ) 于1985年在《Translation by Analogy 》中首次提出的, 其基本思想是不通过深层的分析, 仅通过已有的经验知识, 通过类比原理进行翻译. 基于实例的机器翻译方法的特点是:①系统中知识以翻译实例和语义词典等形式存在, 系统易维护, 可以利用增加实例和词汇的方式很容易地扩充系统; ②若利用较大的翻译实例库或输入与实例精确匹配时, 译文质量比较高; ③避免了基于规则的机器翻译必须进行的深层次语言学分析, 这在翻译策略上尤为吸引人; ④语种相关知识很少, 只要记忆库中存在外形与输入相似的句子, 即可匹配. EBM T 对于相同或相似的文本, 有非常显著的翻译效果, 随着例句库规模的增加, 其作用也愈显著.

基于实例的翻译有许多优点, 在很多地方有相当大的潜力, 是近年来研究的热点之一. 但是, 由于语料库规模的限制,EBM T 很难达到高的匹配率, 面临的主要问题是实例的自动对齐, 就是将语料库中源语言文本和目标语言文本中意义相同的意群通过算法对应起来. 20世纪80年代以来, 双语语料的自动对齐技术有了很大的发展, 国内外很多研究人员都做了大量工作. 根据意群的大小可以分为段落对齐、句子对齐、短语对齐、词和字的对齐, 而要进行翻译, 至少要做到句子对齐. 由于意群的大小不同和双语的不同, 现有的段落对齐和句子对齐算法所利用的信息有长度信息、位置信息、词根信息、词性信息等, 或者几种信息相结合. 如G ale [8]和Brown [9]分别提出了基于句子长度的句子对齐算法,Church [10]提出了基于字符匹配的文本对齐算法. 从理论上讲, 对齐单位越小, 匹配准确率越高, 但加工深度和成本会相应增加, 系统的可扩充性也会变差[11]. 然而, 词汇一级的对齐技术远比句子对齐困难, 原因在于在词汇一级源语言中的词序在目标语言中不再保留, 两种语言文本在词汇一级的对应关系也比句子一级的对应关系更为复杂[12]. 另外, 诸如实例匹配的相似度、语料库的规模建设等都是基于实例的机器翻译需要解决的问题. 因此, 至今为止很少有翻译系统采用单纯的基于实例的机器翻译方法.

1. 4 基于模板(模式) 的机器翻译方法

一般把Template 2based M T 译作基于模板的机器翻译方法, 把Pattern 2based M T 译作基于模式的翻译方法. 这两种方法已被广泛采用, 统称为基于模板的方法, 其基本特点是:①表达翻译知识的基本数据形式为模板; ②模板实际上是一种词汇化的规则. 一般单语模板是由常量和变量组成的序列. 常量表示具体的词汇(终结符) , 变量表示一类词和短语(非终结符) . 从形式上看, 这与一个短语结构规则没有本质上的区别,

 第2期史树敏:机器翻译方法的研究现状   ・167・但从工程实践的角度, 传统的基于规则的方法一般很少把具体的词语写进规则中去; ③一个翻译模板由两个双语及其变量的映射关系组成; ④从知识的粒度看, 模板是介于规则和实例之间的一种表示, 比规则更具体, 而比实例更抽象; ⑤与EBM T 相比, 一个明显的区别是基于模板的方法在翻译中不直接使用翻译实例, 从实例中获取的知识都存储在翻译模板中. 基于模板的方法综合了规则和实例两种方法的优点, 但它的缺点是模板的通用化受限于某一领域, 在跨领域或者大规模的应用中, 很难做到模板的通用化, 并且要得到较好的覆盖率也要求有很多模板.

1. 5 基于有限状态自动机的机器翻译方法

有限状态自动机(FSA ) 是一种成熟的计算工具, , 如多关键字匹配, 语法/句法分析, 词性标注等. FSA , 法, 转录机则是在识别的同时进行输出, 具有翻译功能, , 单个有限状态识别机的能力等价于, 于Chomsky HMM 模型.

1. 6 T 方法可以取得令人满意的效果, 于是多引擎的思想就自然而然地成为一种提高机器翻译质量的手段. Robert Frederking [13]于1994年提出了一种典型的多引擎机器翻译方法, 其基本思想是:①多个翻译引擎同时对输入的句子进行翻译, 不仅对整句进行, 同时对句中任何一个片段也给出对应的译文, 并对这些译文片段给出一个评分; ②各个翻译引擎共享一个类似chart 的数据结构, 根据其源文片段所处的位置, 将这些译文片段放在这个公共的chart 结构中; ③对各个引擎给出的片段评分进行一致化处理, 使之具有可比较性; ④采用一个动态规划算法(chart walk 算法) 选择一组刚好能覆盖整个源文输入句子, 同时又具有最高总分的译文片段作为输出.

Fuji Ren 在机器翻译系统中所使用的多翻译引擎的策略也是先把句子切成短语, 再使用多个翻译引擎来对其进行翻译, 然后挑出评分最高的结果, 最终组合成译文[14]. 但该系统的多翻译引擎处理, 没有一个明确的组织结构, 系统扩展比较复杂, 翻译引擎对资源的占用缺乏管理. 目前, 多引擎方法在M T 系统的开发中已得到广泛采用, 只是具体应用模式有所差别.

综合以上各种方法, 基于规则的方法可以事先不建立语料库, 但它所描述的知识粒度太大, 很难将规则全面地覆盖某个领域的各种语言现象; 基于统计的方法必须事先建立一个语料库, 具有很好的一致性和较高的覆盖率, 但它的知识获取机制不同于语言学研究, 所以难以利用语言学成果来改进通过统计方法获得的知识; 规则和统计相结合的方法有明显的优点, 完全可以尝试规则与统计相结合的目标语生成策略[15], 但如何结合才能取得更佳效果, 并无一致的看法. 翻译知识获取问题仍然是机器翻译的瓶颈, 一方面, 通过传统的语言学家内省的方法难以获得足够的语言学知识, 另一方面, 纯粹通过语料库的统计数据稀疏问题也很难克服. 尤其是考虑到深层的翻译知识, 如果要通过对语料库的统计来获得, 必然要对语料库进行大规模的深度加工, 其工作量之大是难以想象的. 但语料库语言学的兴起和不断发展, 已为句法分析知识的获取和语法推导研究的进一步开展提供了很好的基础[16].

2 机器翻译的技术难点

机器翻译集成了自然语言处理学科中各个分支的诸多难题, 由于词形分析、词性标注、句法分析、语义分析都存在着不同程度的歧义, 使得机器翻译在一些基本问题解决之前很难获得重大的突破. 机器翻译中存在的主要问题是[17,18]:

(1) 一词多义. 无论是汉语还是西方语言都普遍存在一词多义现象. 在机器翻译过程中, 有时候需要首先判断一个词的具体词义以及在对应的语言中的生成词汇, 但任何两种不同的语言之间都不会存在词汇语义上完全的一一映射关系, 因为语言在自身进化中为了表达上的需要, 往往会在词汇的本意基础上派生出多个引申义, 从而产生了一词多义现象. 针对这种情况, 解决的方法是词义消歧(Word Sense Disambiguation ) , 又叫词义标注, 就是对文本中每个词根据所属上下文给出它所属的语义编码. 目前, 多义词排版的研究尚处于初级阶段, 英语的多义词排版方法主要有人工智能方法、基于词典的方法和基于语料库的方法[19], 例如,

   ・168・内蒙古师范大学学报自然科学(汉文) 版第33卷 Yarowsky 提出的基于义类词典《International Thesaurus 》的词义消歧方案[20]; Luk 根据《Oxford Advanced Learner πs Dictionary 》中的释义文本来判断多义词在上下文中的词义[21].

(2) 词性的兼类. 词性是词汇的重要属性之一, 由于上述同样的原因, 多数词都存在词性兼类现象. 兼类在理论上指的是有些词具有两类或两类以上的句法分布特征, 这些词属于不同的类, 简称兼类[22]. 所以, 尽管在一个句子内部, 某个词的词性通常是确定的, 但由于该词的词性与其上下文关联, 在对一个句子之中的词汇进行词性标注时, 往往不能保证得到完全正确的结果. 所谓词性标注就是在给定句子中判定每个词的语法范畴(Grammat 2icalategory ) , 从而确定其词性的过程. 词性自动标注就是兼类词的自动词类歧义排除[23,24].

(3) 短语结构歧义. 发生短语结构歧义的原因是名词、, 导致不同的附着方法都可能会产生合理的语义. 如“咬死/猎人的狗”/狗”词性解析都具有合理的语义, . 题, . 翻译, , 在系统还没有能力辨别结构歧义的情况下, 采用“以歧义

[25]对歧义”. 但是, 单纯在语法甚至语义层面上, 消除歧义是非常困难的.

(4) 译文质量难以保证. 歧义辨别和语义筛选等问题制约了译文质量的提高, 主要原因是作为机器翻译研发基础的理论研究滞后[26]. 目前, 整个翻译系统主要是在句法层面上搭建的, 系统使用的有限的语义信息是用来为句法层面服务的, 目标语的生成仅仅依靠从源语言做简单的句法结构转换, 而这是远远不够的[27]. 另外, 系统使用的语言规则仍以传统语法为基础, 知识粒度太粗, 不能准确地反映自然语言的某些复杂特性[28]. 所以, 译文质量至今没有取得实质性的进展, 很多50年前未解决的问题如今依然存在. 现有机器翻译的进展更多地依靠计算机资源的发展, 在翻译方法上还没有取得实质性的突破, 而在辅助资源和核心方法上, 后者具有更直接的意义.

总之, 机器翻译面临的困难主要包括表层困难和深层困难. 表层的困难之一是自然语言与计算机语言不同, 语法现象常有例外, 使得计算机中需要存储的语法现象庞大得难以实现; 另一个表层困难是上面提到的一词多义性. 在自然语言中, 一个词可以有多种含义, 而一种含义也可以用多个词来表达, 在众多语义中选择一个最佳表达, 对计算机来说是相当困难的. 但人们在用自然语言会话时, 对一词多义所产生的困难几乎没有觉察, 因为他们在会话过程中可以理解这些语义, 而计算机却很难做到这一点, 这就是一种深层次的困难.

[29]从不理解状态进入理解状态的过程称之为“解释学的循环”, 怎样在机器上实现“解释学的循环”也是一个

很困难的问题, 短期是难以实现的.

参考文献:

[1] John Hutchins. Towards a new vision for M T [R ].Introductory speech at the “M T Summit Ⅷ”,2001.

[2] 董振东. 中国机器翻译的世纪回顾[EB/OL ].中国计算机世界,fttp ://tech. sina. com. cn/soft/2000-07-06/478. hml ,

2000-07-06.

[3] 陈肇雄, 黄河燕. 多语机器翻译及其系列应用系统研究进展[A].中国中文信息学会20周年学术会议论文集[C].北

京:清华大学出版社,2001. 11.

[4] 冯志伟. 计算语言学[M ].北京:商务印书馆,2001.

[5] 陈毅东, 李堂秋, 郑旭玲. 融合理性主义方法和经验主义方法的思路初探[A ].机器翻译研究:2002年全国机器翻译研

究会论文集[C].北京:电子工业出版社,2002. 116-123.

[6] 单玉秋. 汉英辅助翻译系统用户需求调查及源语言辅助分析技术[A ].机器翻译研究:2002年全国机器翻译研究会论

文集[C].北京:电子工业出版社,2002. 15-18.

[7] 冯志伟. 计算语言学[M ].北京:商务印书馆,2001. 43.

[8] G ale W ,Church K. A program for aligning sentence in bilingual corpora [A].Proceedings of the 29th Annual Meeting of the

Association for Computational Linguistics [C].Berkeley ,CA ,1991. 177-184.

[9] Brown P ,Mercer R. Aligning Sentences in Parallel Corpora [A ].Proceedings of the 29th Annual Meeting of the Association

for Computational Linguistics [C].Berkeley ,CA ,1991. 169-176.

 第2期史树敏:机器翻译方法的研究现状   ・169・

[10] Church K. Char 2align :Aprogram for aligning Parallel texts at the character level [A].Proceedings of the 31st Annual Meet 2

ing of the Association for Computation Linguistics [C].Columbus ,Ohio ,1993. 1-8.

[11] 陈博兴, 杜利民. 基于双语对齐口语语料的翻译词典的自动生成[J].计算机学报,2003,26(3) :275-280.

[12] 常宝宝. 基于统计的翻译等价词对抽取研究[J].计算机学报,2003,26(5) :616-621.

[13] Robert Frederking ,Sergei Nirenburg. Three Heads are Better than One [A].Proceeding of the Fourth Conference on Applied

Natural Language Processing Stuttgart [C].G ermany ,1994. 95-100.

[14] Fuji Ren ,Hongehi Shi ,Shingo Kuroiwa. A New Machine Translation Approach Using Multiple Translation English and Sen 2

tence Partitions. Systems ,Man ,and Cybernetics ,2001[J].IEEE International Conference ,2001,3:1699-1704.

[15] 郭宏蕾, 胡岗. 统计与规则相结合的目标语言生成策略[A].机器翻译研究:2002[C].

北京:电子工业出版社,2002. 110.

[16] Lu Y a 2juan ,Li Sheng , Zhao Tie 2J une Automatically Bilingual Language

Model [J].Chinese Journal of ,26(-[17] 徐波. 、[C].北京:科学出版社,2002. 206-210.

[18] 刘群, ].中文信息处里国计会议论文集[C].北京:清华大学出版社,1998.

[19] 刘开瑛. [A].计算语言学进展与应用[C].北京:清华大学出版社,1995.

[20] Y arowsky ,David. Decision Lists for Lexical Ambiguity Resolution :Applicationto Accent Restoration in S panish and French

[A].ACL eds. The 32nd Annual Meeting of Association for Computational Linguistics [C].Las Cruces ,NM :ACL,1994. 88-95.

[21] Luk ,Alpha K. Statistical Sense Disambiguation with Relatively Small Corpora Using Dictionary Definitions [A ].ACL eds.

The 33rd Annual Meeting of ACL [C].Cambridge ,Massachusetts ,1995. 181-188.

[22] 刘开瑛. 中文文本自动分词和标注[M ].北京:商务印书馆,2001.

[23] 刘开瑛, 郑家恒, 周丽娜. 汉语词类标注规则的获取技术[A ].计算语言学研究与应用[C ].北京:语言学出版社,

1993.

[24] 王挺, 陈火旺. 一种自适应词性标注方法[M ].软件学报,1997,8(12) :937-943.

[25] 冯志伟. 机器翻译系统消歧功能测试[A].机器翻译研究:2002年全国机器翻译研究会论文集[C].北京:电子工业出

版社,2002. 224-246.

[26] 刘倬. 机器翻译的发展和突破[A].机器翻译研究:2002年全国机器翻译研究会论文集[C].北京:电子工业出版社,

2002,1-6.

[27] 单玉秋. 汉英辅助翻译系统用户需求调查及源语言辅助分析技术[A].机器翻译研究:2002年全国机器翻译研究会论

文集[C].北京:电子工业出版社,2002. 15-22.

[28] 段绮丽, 段自宓. 机器翻译中自然语言的梯级表示模型[A].机器翻译研究:2002年全国机器翻译研究会论文集[C].

北京:电子工业出版社,2002,132-135.

[16] 赵南元. 认知科学与广义进化论[M ].北京:清华大学出版社,1994.

APPROACHES OF MACHIN E TRANSLA TION

SHI Shu 2min

(College of Com puter and Inf orm ation Engineering , Inner Mongolia Norm al U niversity , Huhhot 010022, China )

Abstract :Through a analysis of the difficulties and problems that the machine translation is facing with ,the characteristics and applicability of machine translation methods that are often used are discussed.

K ey w ords :natural language processing ; machine translation technology ; translation method ; characteris 2tic ; difficulty point

【责任编辑陈汉忠】


相关文章

  • 国内科技英语翻译教学研究综述
  • 中国科技经济新闻数据库 教育 国内科技英语翻译教学研究综述 丁 惠 安徽农业大学外国语学院,安徽 合肥 230036 摘要:科技英语翻译教学是科技英语教学的一个重要分支.本文将对国内科技英语翻译教学进行历时研究,总结该领域的研究现状,分析当 ...查看


  • 生物机器人研究现状及其发展方向
  • 生物机器人的研究现状及其发展方向 (天津理工大学 机械工程学院,天津) 摘 要:随着机器人技术的发展,生物机器人的研究正受到学者们的普遍关注.本文主要对对国内外生物机器人的研制工作做了综述,并介绍其应用前景及对其未来发展进行了展望. 关键词 ...查看


  • 刘晶-2013362 讲座心得
  • 信号与信息处理专业硕士研究生 讲座心得 班 级:2013级13班 姓 名:刘晶 学 号:2013362 指导教师:柯丽 2016年 2月 29日 第1次讲座 <国内外机器人技术研究进展与发展趋势>讲座心得 时间: 2014.6. ...查看


  • 机器翻译:现状与展望
  • 机器翻译:现状与展望 中国专利信息中心 王 丹 李 进 机器翻译(Machine Translation),又称为自动翻译,是利用计算机把一种自然源语言转变为另一种自然目标语言的过程,它是自然语言处理(Natural Language Pr ...查看


  • 机器人控制器的现状及展望
  • DOI:10. 13973/j.cn k i . rob ot. 1999. 01. 014第21卷第1期机器人 ROBOT ⒇V ol. 21, No. 1机器人控制器的现状及展望 范 永 谭 民 (中国科学院自动化研究所 北京 1000 ...查看


  • 中国译学研究
  • 中西译学研究 谢思田 (对外经济贸易大学,北京 100029) 摘要:二十世纪六十年代以来,西方开始翻译的科学理论化进程:中国自八十年代后期,译学研究突飞猛进:整体上,中西方缺乏译学研究的双边交叉和互补.本文分析了,中西译学研究的现状,提出 ...查看


  • 科技与现代生活
  • 安徽新华学院2013-2014学年度第2学期 <科技与现代生活>选修课程考试试卷 学生学号: 1231105205 命题教师: 院系班级: 商12级物流管理(2)评卷人: 学生姓名: 高波 考试成绩: 智能机器人的现状及其发展趋 ...查看


  • 农业收获机器人的技术特点及发展现状
  • 引言 随着电子技术和计算机技术的发展,智能机器人已在许多领域得到日益广泛的应用.在农业生产中,由于作业对象的复杂.多样,使得新概念农业机械--农业机器人的开发具有了巨大经济效益和广阔的市场前景,符合社会发展的需求. 中国是一个发展中的农业大 ...查看


  • 大学生跨文化交际能力的现状调查和对策研究
  • 大学生跨文化交际能力的现状调查和对策研究 摘 要: 本文以苏州大学英语更高要求0班级的学生跨文化交际能力的实证调查材料为佐证, 揭示了处于这一水平阶段的大学生在跨文化交际能力方面存在的问题, 阐明了大学英语教学中注重大学生跨文化交际能力培养 ...查看


热门内容