一种基于预训练模型和数据增强技术的“中-英”条件时态机器翻译方法

专利查询2026-06-14 2

本发明属于计算机技术中的人工智能领域，尤其是人工智能中的自然语言处理和机器翻译领域，采用预训练模型chinese-bert和数据增强算法，构建了一个“中-英”机器翻译系统，该系统通过自注意力机制捕捉上下文的时态信息，能够有效的提升机器翻译模型在“中-英”翻译时条件时态的翻译效果。

背景技术：

1、翻译，是一种将一个事物转化为另一个事物的过程，通常情况下是针对序列到序列的转化。自然语言处理(natural language processing，nlp)领域主要关注的翻译问题是自然语言之间的翻译。翻译软件可以将用户输入的一段汉语自动转化为对应的英语表达，像这样的利用计算机进行自然语言翻译的技术被称作是机器翻译(machinetranslation，mt)，其中待翻译的语言被称为源语言，翻译结果所对应的语言被称为目标语言。在没有特别标注的情况下，本说明书下来的内容中提到的“翻译”均指自然语言之间的翻译。

2、时态信息是自然语言中的重要组成部分。在语法中，时态(tense)用于表示事情发生的时间，通常借由动词的各种形式来反映。

3、英文中的条件时态(condition tense)是一种特殊的时态，它在使用频率上远不及现在时、过去时和将来时，但是其有着非常重要的作用。条件时态通常与虚拟语气同时出现，虚拟语气表示说话时人的主观愿望、猜疑、建议或与事实不符的假设等，不表示客观存在的事实。条件时态的句子大多使用情态动词，包括could、should、would和might。

4、对于中文而言，不像现在时、过去时和将来时那般，可以用一些时间概念的辅助词来表达，条件时态则是通过一些与愿望、猜疑、建议或假设相关的词来表述一种虚拟语气，但是，很多时候单看一个中文句子很难判断是否应该使用条件时态，即使其包含了与虚拟语气相关的词。所以，想要正确地判断一个中文句子是否在翻译为英文时使用条件时态，需要充分理解其上下文的信息。

5、神经网络模型transformer能够利用注意力机制有效的对文本进行上下文信息的编码，而基于它演化而来的预训练模型则具有更强的信息表达能力。近年来随着人工智能技术的飞速发展，使用机器来代替人进行翻译工作也逐渐成为了现实。但是一些优秀的翻译模型却往往忽略了时态的翻译效果，尤其是像条件时态这样“样本少但十分重要”的时态。

技术实现思路

1、本发明要解决的是传统的“中-英”机器翻译模型在条件时态上的翻译效果欠佳的问题，技术方案为：

2、1)基于自注意力机制对上下文的时态信息进行编码。

3、2)基于预训练模型chinese-bert构建条件时态分类器。

4、3)基于数据增强算法，构建条件时态数据集和非条件时态数据集。

5、4)基于机器翻译模型han-nmt以及条件时态数据集和非条件时态数据集，构建条件时态翻译器和非条件时态翻译器。

6、本发明的有益效果是：“中-英”条件时态机器翻译系统能够有效的捕捉中文句子中的特征以及英文文档中的上下文时态信息，进而判断一个中文句子在翻译为英文时是否应当使用条件时态，接着根据判断的结果来决定是由条件时态翻译器还是非条件时态翻译器来进行翻译，最终提高翻译系统在条件时态方面的翻译效果。

技术特征：

1.一种基于预训练模型和数据增强技术的“中-英”条件时态机器翻译方法，其特征在于利用预训练模型chinese-bert和条件时态数据增强算法将传统的“中-英”机器翻译方法细分为“分类-翻译-融合”三大过程，并且额外引入了基于自注意力机制的上下文时态信息，以提升“中-英”机器翻译中条件时态的翻译效果。

2.根据权利要求1所述方法，其特征在于首先对iwslt14“中-英”平行语料数据集进行预处理，将xml格式的数据转化为“中-英”句对数据集。然后利用英文自动化时态标注工具tmv-annotator对从2中得到的数据集中的英文进行时态标注，获得每个英文句子中的所有动词短语及其对应的时态类别，挑选出那些使用了条件时态的“中-英”句对作为正样本，并挑选同样数量的负样本一起构建一个“中-英”条件时态二分类数据集。

3.利用自注意力机制引入上下文的时态信息。本发明认为英文中的一个使用条件时态的句子，其上下文在时态方面也具有一定的特征，所以本发明的特征在于利用自注意力机制，为一个英文文档构建上下文时态信息的编码，得到每个句子的上下文时态信息特征。

4.使用预训练模型chinese-bert、自注意力机制和一个线性分类神经网络，构建一个条件时态分类器。该分类器在2中得到的条件时态二分类数据集上进行微调训练。本发明利用3中的上下文的时态特征，将其与chinese-bert输出的[cls]向量进行连接处理，一同输入给线性分类神经网络进行标签预测。条件时态分类器可以捕捉中文句子中与英文条件时态有关的特征，其接受一个中文句子作为输入，判断该句子在翻译为英文时是否应当使用条件时态。

5.权利5的特征在于设计了一个条件时态数据增强算法。本发明方法利用自然语言工具包nltk，对从2中得到的数据集进行分句、分词和词性标注处理。条件时态增强算法可以有效地1)将一个不使用条件时态的英文句子，在不改变其语法结构和语义的前提下，将其转化为一个使用条件时态的句子；相对应的也可以2)将一个使用条件时态的英文句子进行“去条件时态化”处理。我们分别利用处理1)和2)对从权利2中得到的数据集进行数据增强，得到两个对应的数据集：条件时态增强数据集和非条件时态增强数据集。

6.使用神经机器翻译模型han-nmt分别在5中得到的两个数据集——条件时态增强数据集和非条件时态增强数据集上进行训练，得到条件时态翻译器和非条件时态翻译器。其中条件时态翻译器始终将一个中文句子翻译为一个使用条件时态的英文句子，非条件时态翻译器则相反。

7.权利7的特征在于利用4中的条件时态分类器和6中的条件时态时态翻译器和非条件时态翻译器构建“中-英”条件时态机器翻译模型。模型分为三大部分：1)分类。将输入的中文句子首先交由条件时态分类器，判断其在翻译为英文句子时是否应当使用条件时态。2)翻译。如果1)的输出为真，则将输入交由条件时态翻译器翻译。若1)的输出为假，则交由非条件时态翻译器进行翻译。3)融合。将2)中的输出进行融合处理，得到最终的英文文档。

技术总结
本发明提出了一种基于预训练模型和数据增强技术的“中‑英”条件时态机器翻译方法，用于增强“中‑英”机器翻译时条件时态的翻译效果，进而提高翻译系统总体的翻译表达能力，提高用户满意度。本发明主要分为四个主要环节：利用自注意力机制对英文的上下文时态信息进行编码、利用预训练模型Chinese‑BERT构建一个条件时态分类器、设计了一个条件时态数据增强算法以及基于篇章级机器翻译模型HAN‑NMT构建的条件时态翻译器和非条件时态翻译器。这一方法为“中‑英”机器翻译中条件时态翻译效果问题提供了一个最前沿的基于预训练模型和数据增强算法的优化方案，同时也为“中‑英”翻译和其他语种翻译中时态的优化问题提供了可以借鉴的思路。

技术研发人员：何铁科,郑滔,张建榕,袁世龙,刘云辉,杨宇翔,赵俊涵
受保护的技术使用者：南京大学
技术研发日：
技术公布日：2024/11/26

转载请注明原文地址:https://tc.8miu.com/read-36145.html

专利

最新回复(0)