机器翻译系统及机器翻译方法与流程

    专利查询2022-07-08  120



    1.本发明涉及计算机技术领域,具体涉及机器翻译系统及机器翻译方法。


    背景技术:

    2.机器翻译给人们带来了极大的便利,机器翻译技术日趋成熟和完善,但在一些对翻译细节要求比较高的场合(例如专利申请文件的翻译),机器翻译引擎还存在不少不尽如人意的地方。
    3.举例来说,待翻译原文中的某些词、短语或用语(例如中文中的“装置”)在翻译目标语言中往往存在多个对应的译词、短语或用语(例如英文中对应的“device”、“apparatus”、“equipment”等),而机器翻译引擎目前难以处理好这些词的选用问题。如果机器翻译引擎在译文中对于同样的原文词语使用了相同的译词,这种情况下用户倘若认为机器翻译译文中的该译词不合适,则可以直接使用word文档中的替换功能直接替换。而如果机器翻译译文中对于同样的原文词语随机使用了不同的译词,尤其是所采用的这些不同的译词中部分译词与译文其它部分不同的原文词语所对应的译词又相同时,这种情况下,用户在对这些不同的译词进行更正和/或统一时,无法直接使用word文档的替换功能实现其目的,必须人工先根据原文词语在原文中的位置找到该原文词语对应译词在译文中的相应位置,然后再对相应位置上的译文内容进行逐一修改。非常耗时且容易出错,效率很低。


    技术实现要素:

    4.本发明一方面致力于解决上述问题,提供一种能非常便捷地对译文进行用语一致性替换和/或修改的机器翻译系统及机器翻译方法。
    5.相应地,本发明提供了一种机器翻译系统,包括:机器翻译引擎,用于对待翻译文本进行断句,以句子为基本翻译单元逐个翻译,对翻译后的每个句子进行合并,生成机器翻译初始译文;对译用语输入模块,用于用户输入想要指定的原文用语和对应的译文用语;词对齐信息生成模块,用于根据用户输入的原文用语生成词对齐信息;其中,机器翻译引擎检测对译用语输入模块是否有用户输入,如果有用户输入,则从对译用语输入模块接收用户输入的原文用语和译文用语,并将原文用语提供给词对齐信息生成模块,从词对齐信息生成模块接收原文用语与机器翻译初始译文之间的词对齐信息,基于接收到的词对齐信息找到机器翻译初始译文中与原文用语相对应的译文内容,并使用译文用语来替换相对应的译文内容,从而生成最终译文,用以输出;如果对译用语输入模块没有用户输入,则将机器翻译初始译文作为最终译文输出。
    6.优选地,词对齐信息生成模块基于至少两种不同方式来生成对齐点,并将各种方式下生成的对齐点相合并来生成最终的词对齐信息。这样能够提高词对齐信息的准确性、可靠性。
    7.本发明还提供了一种机器翻译方法,包括以下步骤:(1)对待翻译文本进行断句;(2)以句子为基本翻译单元逐个翻译;(3)对翻译后的每个句子进行合并,生成机器翻译初
    始译文;以及(4)检测用户是否需要进行用语一致性替换,如果需要,则接收用户输入的原文用语和对应的译文用语,并基于用户输入的原文用语生成与机器翻译初始译文之间的词对齐信息,然后基于词对齐信息找到机器翻译初始译文中与所述原文用语相对应的译文内容,并使用用户输入的译文用语来替换所述相对应的译文内容,从而生成最终译文,用以输出;如果用户不需要进行用语一致性替换,则将机器翻译初始译文作为最终译文输出。
    8.本发明另一方面致力于提供一种特别适合于对专利申请文件进行翻译的机器翻译系统及机器翻译方法。
    9.相应地,根据本发明一优选实施例的机器翻译系统,除了包括上面描述的机器翻译系统的所有特征外,还包括固定用语对译语料存储模块,用于存储固定用语的原文和对应的译文。机器翻译引擎在对基本翻译单元进行翻译时,检测该基本翻译单元是否与固定用语对译语料存储模块中存储的固定用语的原文相匹配,如果匹配,则直接使用固定用语对译语料存储模块中存储的对应译文作为该基本翻译单元的初始译文。
    10.优选地,根据本发明一优选实施例的机器翻译系统还包括句式规则存储模块,用于存储设定的句式规则。机器翻译引擎在对基本翻译单元进行翻译时,检测该基本翻译单元是否与句式规则存储模块中存储的句式规则相匹配,如果匹配,则将该基本翻译单元中格式部分和文本部分拆开,对该文本部分进行翻译而所述格式部分保留原样,再将该文本部分的译文与所述格式部分相合并,合并后的内容作为该基本翻译单元的初始译文。
    11.这里,句式规则可以为:[数字] 文本句子,其中“[数字]”与“文本句子”之间由空格隔开。
    [0012]
    根据本发明一优选实施例的机器翻译方法,除了包括上面描述的机器翻译方法的所有特征外,还包括提供固定用语对译语料库,该语料库中存储有固定用语的原文和对应的译文。在对基本翻译单元进行翻译时,检测该基本翻译单元是否与固定用语对译语料库中存储的固定用语的原文相匹配,如果匹配,则直接使用固定用语对译语料库中存储的对应译文作为该基本翻译单元的初始译文。
    [0013]
    优选地,根据本发明一优选实施例的机器翻译方法还包括提供句式规则库,该句式规则库中存储有设定的句式规则。在对基本翻译单元进行翻译时,检测该基本翻译单元是否与句式规则库中存储的句式规则相匹配,如果匹配,则将该基本翻译单元中格式部分和文本部分拆开,对该文本部分进行翻译而所述格式部分保留原样,再将该文本部分的译文与所述格式部分相合并,合并后的内容作为该基本翻译单元的初始译文。
    [0014]
    由上可见,根据本发明的机器翻译系统和机器翻译方法,不仅解决了现有技术中特定情况下术语一致性替换效率低下的问题,而且还特别适合于对专利申请文件进行翻译,能提供高质量的专利申请机器翻译文件,显著提高用户的专利申请文件翻译工作效率。
    附图说明
    [0015]
    以下附图仅对本发明做示意性说明和解释,并不限定本发明的范围。
    [0016]
    图1示意性示出了根据本发明一优选实施例的机器翻译系统。
    [0017]
    图2示意性示出了根据本发明一优选实施例的机器翻译方法的总体流程。
    [0018]
    图3示意性示出了根据本发明一优选实施例的对基本翻译单元进行处理的具体流程。
    [0019]
    标号说明1
    ꢀꢀ
    机器翻译系统10 机器翻译引擎20 对译用语输入模块30 词对齐信息生成模块40 固定用语对译语料存储模块50 句式规则存储模块。
    具体实施方式
    [0020]
    下面将结合附图,详细描述本发明的示例性实施例。
    [0021]
    图1示意性示出了根据本发明一优选实施例的机器翻译系统1。如图1所示,机器翻译系统1包括机器翻译引擎10、对译用语输入模块20、词对齐信息生成模块30、固定用语对译语料存储模块40和句式规则存储模块50。
    [0022]
    图2示意性示出了根据本发明一优选实施例的机器翻译方法的总体流程。
    [0023]
    下面,结合图1和图2来具体描述机器翻译系统1的总体工作过程。
    [0024]
    如图2所示,在步骤s10,机器翻译引擎10对待翻译文本进行断句。在步骤s20,机器翻译引擎10以句子为基本翻译单元逐个翻译。在步骤s30,机器翻译引擎10对翻译后的每个句子进行合并,生成机器翻译初始译文。
    [0025]
    在步骤s40,机器翻译引擎10检测对译用语输入模块20是否有用户输入(用户认为需要进行译文术语一致性替换/修改时,可通过对译用语输入模块20输入原文中的术语/原文用语和想要使用的对应的译词/译文用语。),如果有用户输入,则转至步骤s50;否则,则将机器翻译初始译文作为最终翻译译文,在步骤s70输出。
    [0026]
    在步骤s50,机器翻译引擎10从对译用语输入模块20接收用户输入的原文用语和译文用语,并将原文用语提供给词对齐信息生成模块30,词对齐信息生成模块30基于用户输入的原文用语来生成该原文用语与机器翻译初始译文之间的词对齐信息。具体来说,词对齐信息生成模块30首先基于原文用语找到原文用语在翻译原文中的位置,接着基于原文中的这些位置找到机器翻译初始译文中的相应位置,初始译文中的这些相应位置信息就是上面所说的原文用语与机器翻译初始译文之间的词对齐信息。
    [0027]
    在步骤s60,机器翻译引擎10从词对齐信息生成模块30接收原文用语与机器翻译初始译文之间的词对齐信息,基于接收到的词对齐信息找到机器翻译初始译文中与原文用语相对应的译文内容,并使用用户输入的译文用语来替换相对应的译文内容,从而生成最终翻译译文,用以在步骤s70输出。
    [0028]
    另外,专利申请/专利文件作为一种重要的科技类法律文件,经常需要在不同语言之间进行翻译。而专利申请文件在格式方面通常有一些共性的特定要求,例如每一件专利申请文件通常都包括“摘要”、“权利要求书”、“发明名称”、“技术领域”、“背景技术”、“发明内容”、“附图说明”、“具体实施方式”等部分;例如每一段内容之前会标注段号,如第0067段会以[0067]加以标注。
    [0029]
    针对专利申请文件,为了使机器翻译译文更加规范、一致,本发明的优选实施例进行了优化处理。具体结合图1和图3来进一步说明。
    [0030]
    图1中的固定用语对译语料存储模块40用于存储固定用语的原文和对应的译文,这里的固定用语指的是如上文提及的专利申请文件中的一些固定部分的名称,如“摘要”、“权利要求书”、“发明名称”、“技术领域”、“背景技术”、“发明内容”、“附图说明”、“具体实施方式”等。这些固定用语的原文及其选定的对应译文也可称为固定用语语料。
    [0031]
    图1中的句式规则存储模块50用于存储设定的句式规则,例如针对段号这样的格式,可以将句式规则设定为:[数字] 文本句子,这里,“[数字]”与“文本句子”之间由空格隔开。
    [0032]
    图3示意性示出了根据本发明一优选实施例的对基本翻译单元进行处理的具体流程。
    [0033]
    参看图3,在步骤s21,机器翻译引擎10判断基本翻译单元是否与固定用语对译语料存储模块40中存储的固定用语的原文相匹配;如果匹配,则在步骤s22直接使用固定用语对译语料存储模块40中存储的对应译文作为该基本翻译单元的初始译文,用于在步骤s26输出;如果不匹配,则转至步骤s23处理。
    [0034]
    在步骤s23,机器翻译引擎10继续判断基本翻译单元是否与句式规则存储模块50中存储的句式规则相匹配;如果匹配,则在步骤s24中将该基本翻译单元中格式部分和文本部分拆开,对该文本部分基于神经网络机器翻译模型进行翻译(换言之,基于现有的机器翻译引擎进行常规翻译处理)而格式部分保留原样,再将该文本部分的译文与格式部分相合并,合并后的内容作为该基本翻译单元的初始译文,用于在步骤s26输出;如果不匹配,则转至步骤s25处理。
    [0035]
    在步骤s25,对与固定用语对译语料存储模块40中存储的固定用语和句式规则存储模块50中存储的句式规则都不相匹配的基本翻译单元,直接基于神经网络机器翻译模型进行翻译(也就是基于现有的机器翻译引擎进行常规翻译处理),翻译结果作为基本翻译单元的初始译文,用于在步骤s26输出。
    [0036]
    虽然图3所示的优选实施例中,机器翻译引擎10首先对基本翻译单元进行是否与固定用语对译语料存储模块40中存储的固定用语的原文相匹配的判断,然后对基本翻译单元进行是否与句式规则存储模块50中存储的句式规则相匹配的判断;但本领域普通技术人员能够理解的是,这种先后次序是可以颠倒的,甚至也可以选择只做其中一项判断。相应地,机器翻译系统1也可以只包括固定用语对译语料存储模块40和句式规则存储模块50两者之一。
    [0037]
    下面,为了更加便于理解根据本发明优选实施例的基于词对齐信息进行用语一致性替换,特列举一个具体替换的例子。
    [0038]
    例如,原文为“未来移动通信系统中,例如第五代移动通信系统,高频通信和大规模天线技术将会被引入。”,机器翻译初始译文为“in future mobile communication systems, such as 5th generation mobile communication systems, high frequency communications, and large scale antenna technology will be introduced.”。现用户想将原文中的“第五代移动通信系统”统一译成“5g”。此时用户只需输入原文用语“第五代移动通信系统”和译文用语“5g”。
    [0039]
    词对齐信息生成模块30基于原文用语找到其在原文中的位置信息,基于原文中的位置信息找到译文中的对应位置信息,具体如下:
    原文位置标记:“未来(1) 移动(2) 通信(3) 系统(4) 中(5) ,(6) 例如(7)第五代(8) 移动(9) 通信(10) 系统(11) ,(12) 高频(13) 通信(14) 和(15) 大规模(16) 天线(17) 技术(18) 将(19) 会 (20) 被(21) 引入(22) 。(23)”;译文位置标记:“in(1) future(2) mobile(3) communication(4) systems(5),(6) such(7) as(8) 5th(9)generation(10) mobile(11) communication(12) systems(13) ,(14) high(15) frequency(16) communications(17),(18) and(19)large(20) scale(21) antenna(22) technology(23) will(24) be(25) introduced(26) .(27)”。
    [0040]
    原文用语在原文中的位置信息为:8、9、10、11;词对齐信息为:8-9、8-10、9-11、10-12、11-13(也可理解为原文用语与译文之间的词对齐信息,词对齐信息如何生成将在下面进行说明),基于词对齐信息找到原文用语在译文中的相应位置(即译文中需要进行替换的内容位置,):9、10、11、12、13。
    [0041]
    接着将译文中这些位置的内容统一替换为译文用语“5g”。
    [0042]
    关于词对齐信息如何生成,例如作为可选择的一种方式:可以基于神经网络注意力机制生成词对齐关系,设置对齐概率阈值,对于大于阈值的对齐点进行保留。
    [0043]
    作为可选择的另一种方式:通过正向词典找到原文到译文的对齐关系1;通过反向词典找到译文到原文的对齐关系2;基于对齐关系1和对齐关系2生成对齐矩阵,并将所有双向对齐点作为初始对齐点;遍历初始对齐点,对其临接点进行判断,若存在单向对齐关系,并且原词或目标词没有在双向对齐关系中,则将该对齐点加入;遍历对齐矩阵,如果存在某节点单向对齐,且该点的原语或目标语未双向对齐,则将该对齐点加入。
    [0044]
    特别需要指出的是,根据本发明的优选实施例,通过至少两种不同方式生成对齐点,并将不同方式下生成的对齐点合并,生成最终的词对齐信息。
    [0045]
    根据本发明的机器翻译系统可以实施为设备上的特定硬件或者安装于设备上的软件或固件等。
    [0046]
    在本发明所提供的实施方式中,应该理解到,所揭露方法和系统,可以通过其它的方式实现。以上所描述的实施方式仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。
    [0047]
    另外,在本发明提供的实施方式中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
    [0048]
    所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
    [0049]
    最后应说明的是:以上所述实施方式,仅为本发明的示例性具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施方式对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域
    的技术人员在本发明揭露的技术范围内,其依然可以对前述实施方式所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施方式技术方案的精神和范围。都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求限定的保护范围为准。
    转载请注明原文地址:https://tc.8miu.com/read-1971.html

    最新回复(0)