统计机器翻译系统中的开源软件

  统计机器翻译领域中一些重要的开源软件,包括词语对齐工具、语言模型工具等,对于推动统计机器翻译的发展起到了非常重要的作用。

  统计机器翻译在短时期能够得以迅速发展,除了技术进步外,很大一方面要归功于很多开放源码的统计机器翻译工具,有些时候,正是因为这些开放源码的工具才使得某项技术被广泛接受和使用。例如,20世纪90年代初IBM公司的Brown等人提出了5个模型来刻画统计机器翻译,取得了不错的效果,但是在此之后很长一段时间内都没有被大家认可和接受,原因是他们的模型非常复杂,难以理解和实现。直到1999年,开源软件包Egypt的出现,才使得IBM的模型被广泛研究和使用。可以说Brown等人的工作为现代统计机器翻译奠定了深厚的基础,但其影响却是通过开源软件才得以实现,由此可见开源软件对于统计机器翻译这样一个复杂的研究课题的重要性。

  1. 首个开源统计机器翻译工具包Egypt

  Egypt是在1999年约翰霍普金斯大学统计机器翻译夏季讨论班上,由一些研究人员共同合作开发的统计机器翻译工具包。它包括4个模块;

  ● Whittle: 语料库预处理模块;

  ● GIZA: 用于从句子对齐的双语语料库中训练词语对齐;

  ● Cairo: 词语对齐的可视化工具;

  ● Decoder: 解码器,用来执行具体的翻译过程模块,这一模块没有开放源码。

  其中,用于训练词语对齐的模块GIZA现在仍然被广泛使用,利用它能够非常方便地从大规模的双语文本中获得统计知识。GIZA++是GIZA的改进版,GIZA++实现了IBM公司提出的5个模型,其主要思想是利用EM算法对双语语料库进行迭代训练,由句子对齐得到词语对齐。GIZA是独立于语言的,能够对任何两种语言进行训练,这也是统计机器翻译的优点之一。现在几乎所有的统计机器翻译系统都利用这一工具进行词语对齐的训练。

  2.语言模型训练工具SRILM

  SRILM是一个建立和使用统计语言模型的开源工具包,从1995年开始由SRI 口语技术与研究实验室(SRI Speech Technology and Research Laboratory)开发,现在仍然不断推出新版本,被广泛应用于语音识别、机器翻译等领域。这个工具包包含一组C++类库、一组进行语言模型训练和应用的可执行程序等。利用它可以非常方便地训练和应用语言模型。给定一组连续的词,调用SRILM提供的接口,可以得到这组词出现的概率。

  3. 机器翻译的自动评测工具Mteval

  在一些著名的统计机器翻译国际评测中普遍使用自动评测与人工评测相结合的方法,例如美国国家技术和标准研究所(NIST)举行的评测。Mteval便是他们开发的自动评测工具,最新版本是mteval-11b.pl,是用Perl语言写成的。

  4. 首个基于短语的统计机器翻译系统“法老”(Pharaoh)

  “法老”是较早公开的统计机器翻译系统,由美国南加州大学信息科学实验室(Information Science Institute)的菲利普•科恩(Philipp Koehn)在2004年做博士论文期间编写的。“法老”包括两大部分: 训练和解码。训练过程用来从语料库中获得统计知识。它利用了已有的开源软件GIZA++和SRILM,GIZA++用来训练词语对齐,SRILM训练语言模型,但解码没有公开源代码。“法老”原理简单,易于使用,它的出现对于推动机器翻译研究起到了非常大的作用。

  5. 中国首个开源的统计机器翻译系统丝路(SilkRoad)

  “法老”的出现揭开了统计机器翻译的神秘面纱,然而其核心部分――解码器的源码仍然没有公开。为此,中国的研究人员联合开发了一个完全开放源代码的统计机器翻译系统――“丝路”。该系统由中国的五家研究机构和高校(中科院计算所、中科院自动化所、中科院软件所、厦门大学、哈尔滨工业大学)联合开发,并在2006年中国第二届统计机器翻译研讨会上发布。“丝路”包括以下模块: 语料预处理及后处理模块“仙人掌”、词语对齐模块“楼兰”、短语抽取模块“胡杨”、以及三个解码器(“骆驼”、“绿洲”和“商队”)。这是第一次将一个完整的统计机器翻译系统公开,极大地促进了国内统计机器翻译的快速发展。

  6.摩西(Moses)

  “摩西”是“法老”的升级版本,它增加了许多功能,是由英国爱丁堡大学、德国亚琛工业大学等八家单位联合开发的一个基于短语的统计机器翻译系统。来自这些单位的研究人员于2006年在约翰霍普金斯大学召开了一次研讨会,利用6个星期的时间共同开发了这一系统。整个系统用C++语言写成,从训练到解码完全开放源代码,可以运行在Windows平台和Linux平台。

  7. 基于句法的统计机器翻译系统GenPar

  GenPar工具包实现了一个基于句法的统计机器翻译系统。基于句法的方法将句法结构信息引入到统计机器翻译中来,目前已成为统计机器翻译领域的研究热点。但是构建基于句法的统计机器翻译系统远比构建基于短语的要困难得多,为了让研究者们很快进入这一领域,在JHU2005夏季研讨会上,由纽约大学艾•丹•米拉姆德(I. Dan Melamed)等人组成的统计机器翻译组开发了GenPar。

  GenPar的基本原理是利用多文本语法(Multi-Text Grammar)实现多语言的句法分析、结构对齐和翻译。多文本语法是一种多种语言的同步语法,理论上比较完善,功能强大。GenPar有很多特点:首先,该系统是一个纯粹基于句法的模型,在翻译过程中充分利用了句法结构信息; 其次,它具有很好的定制能力,可以实现各种不同类型的基于同步语法的统计机器翻译,很适合于作为实验各种理论的研究平台。总的来看,该系统功能比较强大,但由于其比较复杂,掌握起来比较困难,性能比现有的基于短语的模型稍差。(本文作者米海涛为中科院计算所博士研究生)

  

  链接

  统计机器翻译第一人与Google

  

  在统计机器翻译中有一位颇具传奇色彩的人物,就是毕业于德国亚琛工业大学的博士生弗朗茨•约瑟夫•欧赫(Franz Joseph Och)。在1999年他开发出了著名的IBM模型训练工具Giza。在2002年NIST评测中,取得第一名的亚琛工业大学的机器翻译系统也是由他开发的。2002年,欧赫从亚琛工业大学毕业后进入美国南加州大学信息科学研究所(ISI/USC)工作,同时作为Language Weaver公司的顾问,后来于2004年加盟了谷歌(Google)公司。

  他所工作的每一个单位都稳拿当年NIST机器翻译评测的第一名。尤其是2005年的NIST评测中,他所在的谷歌公司开发的汉英机器翻译系统取得了0.35的BLEU值,比第二名的南加州大学(即他原来所在的单位)系统的性能提高了近5个百分点。在2006年评测中,除了汉英机器翻译的受限语料项目,其他所有项目的第一名都是谷歌公司。

  欧赫这些年来发表的很多论文,包括博士论文,都成了统计机器翻译研究领域的经典,被人广泛引用和验证。更难得的是,他对自己的研究工作持一种非常开放的态度,目前统计机器翻译研究领域一些著名的开源软件,如IBM模型训练工具Giza++、最大熵模型训练工具YASMET都是他开发的。这一切显示了欧赫不愧为统计机器翻译研究的第一人。

  欧赫是统计方法的忠实信徒。他到谷歌公司以后,谷歌公司对海量数据的驾驭能力使得欧赫如鱼得水。他把谷歌公司在Internet上采集的所有英语文档都用来训练英语的语言模型,动用了谷歌公司数千个CPU组成的计算机集群进行计算。如此巨大的语言模型,使得他所代表的谷歌公司在NIST评测中取得了其他单位难以撼动的优势。

  统计机器翻译领域中一些重要的开源软件,包括词语对齐工具、语言模型工具等,对于推动统计机器翻译的发展起到了非常重要的作用。

  统计机器翻译在短时期能够得以迅速发展,除了技术进步外,很大一方面要归功于很多开放源码的统计机器翻译工具,有些时候,正是因为这些开放源码的工具才使得某项技术被广泛接受和使用。例如,20世纪90年代初IBM公司的Brown等人提出了5个模型来刻画统计机器翻译,取得了不错的效果,但是在此之后很长一段时间内都没有被大家认可和接受,原因是他们的模型非常复杂,难以理解和实现。直到1999年,开源软件包Egypt的出现,才使得IBM的模型被广泛研究和使用。可以说Brown等人的工作为现代统计机器翻译奠定了深厚的基础,但其影响却是通过开源软件才得以实现,由此可见开源软件对于统计机器翻译这样一个复杂的研究课题的重要性。

  1. 首个开源统计机器翻译工具包Egypt

  Egypt是在1999年约翰霍普金斯大学统计机器翻译夏季讨论班上,由一些研究人员共同合作开发的统计机器翻译工具包。它包括4个模块;

  ● Whittle: 语料库预处理模块;

  ● GIZA: 用于从句子对齐的双语语料库中训练词语对齐;

  ● Cairo: 词语对齐的可视化工具;

  ● Decoder: 解码器,用来执行具体的翻译过程模块,这一模块没有开放源码。

  其中,用于训练词语对齐的模块GIZA现在仍然被广泛使用,利用它能够非常方便地从大规模的双语文本中获得统计知识。GIZA++是GIZA的改进版,GIZA++实现了IBM公司提出的5个模型,其主要思想是利用EM算法对双语语料库进行迭代训练,由句子对齐得到词语对齐。GIZA是独立于语言的,能够对任何两种语言进行训练,这也是统计机器翻译的优点之一。现在几乎所有的统计机器翻译系统都利用这一工具进行词语对齐的训练。

  2.语言模型训练工具SRILM

  SRILM是一个建立和使用统计语言模型的开源工具包,从1995年开始由SRI 口语技术与研究实验室(SRI Speech Technology and Research Laboratory)开发,现在仍然不断推出新版本,被广泛应用于语音识别、机器翻译等领域。这个工具包包含一组C++类库、一组进行语言模型训练和应用的可执行程序等。利用它可以非常方便地训练和应用语言模型。给定一组连续的词,调用SRILM提供的接口,可以得到这组词出现的概率。

  3. 机器翻译的自动评测工具Mteval

  在一些著名的统计机器翻译国际评测中普遍使用自动评测与人工评测相结合的方法,例如美国国家技术和标准研究所(NIST)举行的评测。Mteval便是他们开发的自动评测工具,最新版本是mteval-11b.pl,是用Perl语言写成的。

  4. 首个基于短语的统计机器翻译系统“法老”(Pharaoh)

  “法老”是较早公开的统计机器翻译系统,由美国南加州大学信息科学实验室(Information Science Institute)的菲利普•科恩(Philipp Koehn)在2004年做博士论文期间编写的。“法老”包括两大部分: 训练和解码。训练过程用来从语料库中获得统计知识。它利用了已有的开源软件GIZA++和SRILM,GIZA++用来训练词语对齐,SRILM训练语言模型,但解码没有公开源代码。“法老”原理简单,易于使用,它的出现对于推动机器翻译研究起到了非常大的作用。

  5. 中国首个开源的统计机器翻译系统丝路(SilkRoad)

  “法老”的出现揭开了统计机器翻译的神秘面纱,然而其核心部分――解码器的源码仍然没有公开。为此,中国的研究人员联合开发了一个完全开放源代码的统计机器翻译系统――“丝路”。该系统由中国的五家研究机构和高校(中科院计算所、中科院自动化所、中科院软件所、厦门大学、哈尔滨工业大学)联合开发,并在2006年中国第二届统计机器翻译研讨会上发布。“丝路”包括以下模块: 语料预处理及后处理模块“仙人掌”、词语对齐模块“楼兰”、短语抽取模块“胡杨”、以及三个解码器(“骆驼”、“绿洲”和“商队”)。这是第一次将一个完整的统计机器翻译系统公开,极大地促进了国内统计机器翻译的快速发展。

  6.摩西(Moses)

  “摩西”是“法老”的升级版本,它增加了许多功能,是由英国爱丁堡大学、德国亚琛工业大学等八家单位联合开发的一个基于短语的统计机器翻译系统。来自这些单位的研究人员于2006年在约翰霍普金斯大学召开了一次研讨会,利用6个星期的时间共同开发了这一系统。整个系统用C++语言写成,从训练到解码完全开放源代码,可以运行在Windows平台和Linux平台。

  7. 基于句法的统计机器翻译系统GenPar

  GenPar工具包实现了一个基于句法的统计机器翻译系统。基于句法的方法将句法结构信息引入到统计机器翻译中来,目前已成为统计机器翻译领域的研究热点。但是构建基于句法的统计机器翻译系统远比构建基于短语的要困难得多,为了让研究者们很快进入这一领域,在JHU2005夏季研讨会上,由纽约大学艾•丹•米拉姆德(I. Dan Melamed)等人组成的统计机器翻译组开发了GenPar。

  GenPar的基本原理是利用多文本语法(Multi-Text Grammar)实现多语言的句法分析、结构对齐和翻译。多文本语法是一种多种语言的同步语法,理论上比较完善,功能强大。GenPar有很多特点:首先,该系统是一个纯粹基于句法的模型,在翻译过程中充分利用了句法结构信息; 其次,它具有很好的定制能力,可以实现各种不同类型的基于同步语法的统计机器翻译,很适合于作为实验各种理论的研究平台。总的来看,该系统功能比较强大,但由于其比较复杂,掌握起来比较困难,性能比现有的基于短语的模型稍差。(本文作者米海涛为中科院计算所博士研究生)

  

  链接

  统计机器翻译第一人与Google

  

  在统计机器翻译中有一位颇具传奇色彩的人物,就是毕业于德国亚琛工业大学的博士生弗朗茨•约瑟夫•欧赫(Franz Joseph Och)。在1999年他开发出了著名的IBM模型训练工具Giza。在2002年NIST评测中,取得第一名的亚琛工业大学的机器翻译系统也是由他开发的。2002年,欧赫从亚琛工业大学毕业后进入美国南加州大学信息科学研究所(ISI/USC)工作,同时作为Language Weaver公司的顾问,后来于2004年加盟了谷歌(Google)公司。

  他所工作的每一个单位都稳拿当年NIST机器翻译评测的第一名。尤其是2005年的NIST评测中,他所在的谷歌公司开发的汉英机器翻译系统取得了0.35的BLEU值,比第二名的南加州大学(即他原来所在的单位)系统的性能提高了近5个百分点。在2006年评测中,除了汉英机器翻译的受限语料项目,其他所有项目的第一名都是谷歌公司。

  欧赫这些年来发表的很多论文,包括博士论文,都成了统计机器翻译研究领域的经典,被人广泛引用和验证。更难得的是,他对自己的研究工作持一种非常开放的态度,目前统计机器翻译研究领域一些著名的开源软件,如IBM模型训练工具Giza++、最大熵模型训练工具YASMET都是他开发的。这一切显示了欧赫不愧为统计机器翻译研究的第一人。

  欧赫是统计方法的忠实信徒。他到谷歌公司以后,谷歌公司对海量数据的驾驭能力使得欧赫如鱼得水。他把谷歌公司在Internet上采集的所有英语文档都用来训练英语的语言模型,动用了谷歌公司数千个CPU组成的计算机集群进行计算。如此巨大的语言模型,使得他所代表的谷歌公司在NIST评测中取得了其他单位难以撼动的优势。


相关文章

  • 数据挖掘第4次实验
  • 数据挖掘第4次实验 一.目的: 1.熟悉并掌握常用的数据挖掘工具: 2.学会运用数据挖掘知识完成具体实例. 二.实验内容: 1.熟练掌握以下几种常用的数据挖掘工具: (1)R http://www.r-project.org R 是用于统计 ...查看


  • 基于短语的阿拉伯语到中文的机器翻译系统
  • 第26卷第6期2009年6月 计算机应用研究 ApplicationResearchofComputers Vol.26No.6Jun .2009 基于短语的阿拉伯语到中文的机器翻译系统 李 凯,郑 洁,蒋同海 (中国科学院新疆理化技术研究 ...查看


  • 通用投票管理系统的设计与实现
  • 大连东软信息学院 毕业设计(论文) 论文题目:通用投票管理系统的设计与实现 系 所: 计算机科学与技术系 专 业: 学生姓名: 韩阔 学生学号: 指导教师: 闫海珍 导师职称: 副教授 完成日期: 2014 年 04 月 27 日 大连东软 ...查看


  • 大数据行业分析报告
  • 大数据行业分析报告 (2014) 江苏振邦智慧城市信息系统有限公司 2014年4月25日 目录 一.大数据概述................................................................. ...查看


  • 图像处理软件:软件包为开发人员提供机器视觉设计的众多选择
  • 在配置机器视觉系统时,系统集成商可以采取多种不同的方法. 在构建机器视觉系统时,开发人员可以选择众多知名公司的商用软件包.然而,在选择这类软件时,重要的是理解这些软件提供的功能.支持的硬件以及如何轻松地配置这样的软件,以解决特定的机器视觉任 ...查看


  • 基于栅格法的机器人路径规划调节
  • 基于栅格法的机器人路径规划调节 罗竹青 江苏食品职业技术学院计算机应用技术系,江苏 淮安 223003 摘要:针对栅格法建模的不足,本文研究了一种基于栅格的机器人路径规划调节方法.该方法首先用栅格法建立机器人运动空间模型,在此基础上利用局部 ...查看


  • 6构知识库开源软件DSpace的扩展开发与应用
  • oLi五&OSS2009学术研讨会论文 机构知识库开源软件DSpace的 扩展开发与应用 祝忠明马建霞卢利农刘巍吴登禄 (中国科学院国家科学图书馆兰州分馆兰州73咖0) }冀耍j文章对以DSpace为原型系统为基础构建CAS.m平台 ...查看


  • 搭建属于自己的机器翻译系统
  • 搭建属于自己的机器翻译系统 --MTI 专业"技 术小白"走进小牛翻译开源社区的心得 搭建属于自己的机器翻译系统 --MTI 专业"技术小白"走进小牛翻译开源社区的心得 首先,自我介绍一下.我是一个M ...查看


  • IT PRO的知识结构
  • 首先给从事计算机的工作来一个分类.根据医学家的介绍,人的大脑实际上是两半,左脑控制逻辑和语言,右脑控制感知和创造.好了,回到我们的正题,计算机工作我也分为2种,一种是逻辑设计,一种是感知设计.关于后一种,就是以美工为主的人,通常我们说的美术 ...查看


热门内容