发布时间 : 星期一 文章日语学习更新完毕开始阅读
第24卷第6期 计算机应用研究 Vol.24 No.6 2007年6月 Journal of Application Research of Computers June 2007
EDR日中翻译辞典的建设以及辅助工具的设计*
叶莎妮1,张玉洁2,刘群1
(1.中国科学院计算技术研究所 智能信息重点实验室,北京 100080; 2.日本信息通信研究机构 自然语言处理组,日本 京都 6190289)
摘 要: 电子辞典是在机器翻译系统中一个至关重要的部件。本文综述了在EDR日英辞典的基础上构建EDR日中翻译辞典,提出建设中文翻译辞典时添加相应的中文信息的原则,以便建设的EDR日中翻译辞典能够实现应用于日中机器翻译系统的目标。并且着重描述如何进行翻译工作的组织与开展,并介绍了相关的辅助工具的设计要点。 关键词:
概念辞典;中文辞典设计;机器翻译;词义消歧
EDR Japanese-Chinese Translation Dictionary Building and Relevant
Toolkits Designing
Ye Sha-ni1, Zhang Yu-jie2, Liu Qun1
(1. Key Laboratory of Intelligent Information Processing, Institute of Computing Technology, Chinese Academy of Sciences, Beijing
100080, China; 2. Nautral Language Group, Keihana Human Info-Communications Research Center, National Institute of
Information and Communications Technology, Kyoto 6190289, Japan)
Abstract: Electronic Dictionary is a vital component of a Machine Translation system. This paper introduces how to build a EDR Japanese-Chinese translation dictionary based on a EDR Japanese-English translation dictionary, then brings forward the principles of translating Japanese to Chinese, to use this dictionary to Japanese-Chinese machine translation. Moreover, this paper focuses on how to organize and develop the translation work. Relevant toolkits designing points are introduced.
Key words: Concept Dictionary; Chinese Dictionary Designing; Machine Translation; Word Sense Disambiguation
过程, 从词法分析、语法分析、语义分析和语用分析到目标语言的生成等都需要频繁的访问辞典,因此辞典的词条信息丰富与否是生成高质量译文的关键。理想的机器翻译是达到全自动和高质量的目标,这一目标的基础是有信息丰富、易于机器使用的辞典。
辞典的编纂过程与一般图书不同,通常它的编写、编辑、校对等环节的工作都是由众人合作完成。在每个环节中,每个参与者思想的不同、关注点的不同、知识积累的不同、认识能力的不同等,都有可能造成及其一点,不及其余的主观错误。所以在编纂过程中一定要把握好宏观,做足细节。合理高效的组织人力物力,科学地开展辞典建设的组织工作,这样才能得到一部高质量的辞典。
本论文将介绍我们正在建设的EDR日中翻译辞典。首先介绍了原始EDR日英辞典,然后着重描述了在EDR日中翻译辞典的总计设计与构建,并简要介绍了相应辅助工具设计,最后对EDR日中翻译辞典的建设过程进行了总结。
0 前言
日本NICT机构(National Institute of information and Communication Technology)为了日中机器翻译系统的研究与开发,开始了日中翻译辞典的建设项目,为期3年。具体内容是在NICT拥有的EDR(Electronic Dictionary Research,参见http://www2.nict.go.jp/r/r312/EDR/J_index.html)日英翻译辞典中加入中文信息,包括日语词的中文译语及其词性、翻译类型、文体、敬语程度等字段,日语词概念提示语的中文译文,日语词概念解释的中文译文等信息。在这个项目中,我们承担了NICT委托的一部分工作,包括中文信息标注辅助软件的开发、建立一部含有中文信息的完整的中日英EDR辞典以及基于该辞典的一些其他工作。称我们构建的词典为“EDR日中翻译辞典”。
在机器翻译系统中,辞典占据极其重要的地位。辞典的设计是机器翻译系统关键之一,辞典的质量和信息量直接影响机器翻译系统的应用领域和覆盖范围。在机器翻译的各个
---------------------------------
收稿日期:2007-06-28;返稿日期:2007-XX-XX 基金项目:国家自然科学基金(60603095),国家自然科学基金(60573188) 作者简介:叶莎妮(1983-),女,浙江宁波人,硕士研究生,主要研究方向为自然语言处理技术(yeshani@ict.ac.cn),13146566853,北京海淀区科学院南路6号;张玉洁(1961-),女,北京,工学博士,主要研究方向为计算语言学与机器翻译;刘群(1966-),男,江西萍乡,工学博士,主要研究方向为计算语言学与机器翻译
第24卷第6期 计算机应用研究 Vol.24 No.6 2007年6月 Journal of Application Research of Computers June 2007
1 EDR辞典的介绍
1.1 背景介绍
EDR辞典是由日语辞典以及其它几个大规模的辞典所组成的电子辞典。EDR辞典的开发是为了开展计算机语言处理的研究和相关技术的开发。
EDR辞典是在日本当时的基础技术研究促进中心与八家大型计算机厂家(富士通,日本电气,日立制作所,夏普,东芝,冲电气工业,三菱电机,松下电机,松下电器产业)的共同出资与合作下,从1986年至1994年历经九年开发完成的成果。
EDR辞典的具体内容包括日语辞典,翻译辞典(日英翻译辞典和英日翻译辞典),概念辞典,共起辞典(日语共起辞典和英语共起辞典),专业术语辞典(日语专业术语辞典和英语专业术语辞典),EDR语料库(日语语料库,英语语料库)。本文论述了我们把其中的日英翻译辞典扩充为日中翻译辞典的工作。 1.2 EDR辞典的特点
随着计算机自然语言信息处理(NLP)技术的迅速发展,“词义瓶颈”成为当前很多NLP系统面临的最大问题。为了获取足够的词义知识,从80年代中期开始,世界上许多国家都大力投资开发机用语义辞典。EDR辞典就是这样一部语义辞典,具有一系列的特点,下面着重介绍其最主要的两个特点。
1.2.1 EDR辞典综合了概念辞典
EDR辞典包含一部概念辞典,是按照概念来组织的。概念辞典描述领域本体论,主要提供机器翻译过程所需要的语义信息,方便计算机理解辞典中的词条描述的概念。该辞典的每个词条中包含一个概念编码字段。同一个词的多个不同义项拥有不同的概念编码,在辞典中被组织成多个词条记录,如表1所示:
表1 概念辞典示例
日语
中文译语
日语概日语概念解释
中文概念解释
念提示
赤門
朱门 朱門
朱塗りの門
漆成红色的大红漆门
门
赤門
红门
赤門
東京大学の朱东京大学的漆塗りの通用門
成红色的便门 赤門
东京大学
東京大東京大学とい国立东京大学学
う国立大学
的别名
因此每一个词条只有唯一的含义。这为消除词汇歧义提供前提,在日后的日中机器翻译系统中,这部概念辞典在消除歧义方面起到的作用将得到验证。 1.2.2 EDR辞典综合了翻译辞典
EDR辞典包含翻译辞典(日英翻译辞典和英日翻译辞典),满足“可替换性”原则。将日语词替换为相应的英文译
语之后,不影响原始句子的语法,语义信息,这样才能为机器翻译系统所用。我们在这部EDR辞典中加入相应的中文译语信息时,也必须遵循“可替换”原则,构建一部EDR日中翻译辞典。
1.3 EDR辞典的信息结构设计
EDR辞典由很多词项组成,其中每个词项还包含不同的属性描述信息。完整的EDR辞典结构如图1所示。
词项综合属性词条日英中中日概语语文文语念概概译概读编念念语念音码解提信解释示息释日英英中日语语语文语概译概概词念语念念性提信解提示息释示图1 EDR辞典结构
此结构可以用下面的BNF形式来描述:
<综合属性>::=(<日语读音><日语词性><概念编码><日语概念提示><日语概念解释><英语译语信息><英语概念提示><英语概念解释><中文译语信息><日语概念提示的中文翻译><日语概念解释的中文翻译>)
在上面BNF形式的描述中,词汇的<综合属性>采用复杂特征表示,每一个特征采用属性--值(Attribute-Value) 结构表示,结合实例具体说明如表2所示:
表2 词条示例
属性 说明
实例
日语词 每一个词项对应的日语词条 浅瀬 日语读音
该词条的用片假名表示的日语アサセ
读音
日语词性
该词条的日语词在日文语境中JN1 对应的词性
概念编码 该词条所对应的概念的编码 1e91a4 日语概念提示
与该词条的日语词概念最相关砂嘴[サシ] 的日语词或短语
日语概念解释
用日语给出该日语词概念的详砂嘴という地细解释
形 第24卷第6期 计算机应用研究 Vol.24 No.6 2007年6月 Journal of Application Research of Computers June 2007
续表2 词条示例
属性 说明
实例 英语译语信息
该词条的日语词对应的英文译0|shoal|EN
语信息,一个词条可以对应多
个英语译语信息,一个英语译语信息含翻译类型、英语译语、英语词性三个字段
英语概念提示
与该词条的日语词概念最相关sandbank
的英语词语或短语
英语概念解释
用英语给出的该日语词概念的a large deposit 详细解释
of sand, called a sandbank
中文译语信息
该词条的日语词对应的中文译沙洲|名词|同义语信息,一个词条可以对应多词|文章体|
个中文译语信息,一个中文译语信息:中文译语|词性|翻译类型|文体|敬语程度,有些字段信息可以有缺失
日语概念提示用中文给出日语概念提示的翻沙嘴,沙坝
的中文翻译 译,简称为中文概念提示 日语概念解释用中文给出日语概念解释的翻称作沙嘴(沙的中文翻译
译,简称为中文概念解释
坝)的一种地形 2 EDR日中翻译辞典的总体设计
辞典的建设是一个庞大的计算语言学工程,需要花费巨大而又枯燥的劳动。怎样设计科学高效的工作流程、怎样制定一部切实可行又能保证辞典质量的规范以及怎样进行任务划分以便在规定的时间内,消耗最少的人力物力,完成预定的目标,这是我们在这部辞典的总体设计过程中最关注的。
2.1 辞典建设的管理流程设计
我们经过深思熟虑,设计了这套工作流程,并将在具体运作中不断的调整、完善,从而建立一套科学的工作流程。具体如图2所示。 2.2 任务划分
我们把中文相关信息添加工作分为日中翻译任务和中文译语词类信息标注任务这两个任务。在完成日中翻译任务之后,再进行中文译语词类信息标注任务。一种语言与另一种语言对应的词的词类信息不尽相同,中文的词类信息相对比较复杂,而且相关的研究也已经非常的深入。我们单独将中文译语的词类信息标注作为一个子任务,并且滞后于日中翻译任务来完成,可以带来以下几个优点:
1. 节省成本。中文译语词类信息标注,不需要日语的相关
知识,因此不需要我们的日语工作者来完成。以汉语为母语的大部分人依靠我们提供的标注规范都能够很好
校对人员翻译人员我们制作任务包标注完整性检查校对制作校对反馈信息再学习日志更新原始词典错误登记日方验收
图2 工作流程图
地完成这部分工作,这样就可以大大的节省成本。 2. 提高质量。精通日语的不一定也熟知中文的句法知识。
我们将中文译语的词类信息标注独立出来,挑选汉语工作者来完成,可以保证中文译语词类信息标注的质量。3. 减轻工作人员的负担。将复杂的任务进行划分,使问题
单元化,可以减少了各个子任务的工作量。多年来,经过学者专家们的努力,已经有很多关于中文词类信息的成果是我们可以利用的。我们在具体实施中,利用《现代中文语法信息词典详解》[3]对中文译语进行一遍自动词性标注,以选择操作替代填入操作,并且精简了词类信息的选择范围。这对于减少工作量,提高词类信息标注的准确性具有重要的作用。
进行这样的任务划分充分体现了我们降低成本、提高质量与减轻工作人员负担的原则。
2.3 规范的制定与完善
在建设EDR日中翻译辞典的过程中,需要一些精通日语与汉语的翻译人员参与工作。在制定相应的标注规范时应当充分的考虑到翻译人员的在具体操作时由于各自的文化差异,而造成辞典各部分质量的参差不齐。注定规范时需要仔细考虑以下几个问题:
1. 适当程度上统一标注规范,比如说一些典型结构的翻
译。我们在实际工作中发现,常见的一些结构,不同的人有不同的翻译方式,虽然在人看来,这些翻译方式起到的效果是相同的,但是因为我们的辞典是机用辞典,统一典型结构的翻译将是一个明智的并且必不可少的选择。此外,一些符号的使用也需要统一,尽量避免不同的人使用不同的符号,这一点,我们设计的辅助工具也会帮助翻译人员纠正符号的使用问题。
第24卷第6期 计算机应用研究 Vol.24 No.6 2007年6月 Journal of Application Research of Computers June 2007
2. 规范一定要具体到实际操作的程度上如何把握,以避免
具体操作中的歧义,使具有简易的操作性。比如中文译语添加的“可替换”原则,需要提供充足的例子说明怎样的情况下,翻译人员所填的中文译语是符合要求的。 3. 在进行双语甚至多语的辞典加工时,一些与语言相关的
参考信息如何处理也很关键。原辞典提供多语言参考信息的情况下,可供参考的信息的顺序要进行排序。在我们的原始辞典中除了相应的日文信息,还提供了相应的英文信息。那么在具体操作中,多大程度的参考日文信息或英文信息,应当考虑清楚,以保证得到中文翻译信息的准确性。我们建设这部日中翻译辞典的过程中,主要参照日文的信息给出相应的中文信息。
4. 统一翻译人员的参考资料。比如,我们的日语翻译/校
对人员,在进行日中翻译/校对时指定的参考辞典为商务印书馆的《现代日汉大辞典》及上海译文出版社的《日汉大辞典》,以便保证辞典翻译的统一性和用词的准确性。
在具体实施的过程中,根据翻译人员的反馈要及时地调整与完善规范,尽量减少翻译人员的工作量,进而加快进度并且保证辞典的一致性。
2.4 制定原辞典错误的反馈机制
在辞典的建设过程中,尤其是在翻译辞典这种类型的工作中,原辞典中不可避免会有一些错误,我们当然不允许翻译人员对原始辞典进行任何形式的修改,但是应该有一些方便有效的机制让翻译人员记录下那些他们认为是潜在的错误,然后集中处理。尽可能的修正原辞典中存在的错误,以保证得到高质量的辞典。
我们在实际工作中,以简要的文档来记录错误的词条信息,但这个错误反馈机制很简陋,需要进一步的完善。
3 EDR日中翻译辞典的构建
我们的工作是在原有EDR日英翻译辞典基础上进行的,原有的词条信息包括日文单词、日语读音、日语词性、概念编码、日语概念提示、日语概念解释、英语译语信息、英语概念提示、英语概念解释等。我们需要在其中加入相应的中文信息,构建一部EDR日中翻译辞典,主要应用于日中机器翻译系统的研究与开发。 3.1 工作人员管理
我们拥有一批优秀的日语专家为我们挑选翻译人员、校对人员提供质量把关。经过培训与试做,合格的翻译人员与校对人员我们才采用。日语水平已达到专家水准的即A等级的,我们聘请他们为校对人员;日语水平为国家一级,且有丰富的翻译经验的人员,我们聘请其为翻译人员,进行翻译工作,如图3所示。 类似的进行中文词类信息标注人员的挑选如图4所示。
开始接受培训试做不通过日语专家审核通过淘汰日语等级AB参与翻译工作参与校对工作结束 图3 翻译/校对人员挑选
开始接受培训试做中文句法专家审核不通过通过参与中文译语词类信息标注工作淘汰结束 图4 中文译语词类信息标注人员挑选
3.2 日中翻译任务
在这阶段的任务中,我们需要将原始辞典的每个词条对应的日语词、日语概念提示与日语概念解释翻译为相应的中文,其中中文译语信息包括中文译语、翻译类型、文体和敬语程度。中文译语的词性添加我们作为一个单独的子任务,在本任务中暂不标注。
由于建设的EDR日中翻译辞典需要为日中机器翻译系统服务,在进行翻译工作时就必须充分考虑到添加的中文信息能否正确应用到日中机器翻译系统中。正是基于这样的考虑,我们提出日中翻译过程中的“可替换”原则,也就是在实际翻译句子的时候,该日语词可以替换为对应的中文译语词,不影响原始句子的语法,语义信息。那么应该注意如下几点: