本发明涉及自然语言处理,具体为一种基于多语义空间的机器译文质量估计方法。
背景技术:
1、在不需要人工参考译文对照的情况下,仅利用源语言句子对机器译文的质量进行评估是机器译文质量估计(quality estimation, qe)任务的目标。研究机器译文质量估计方法对机器翻译研究和应用具有重要的意义。
2、根据特征提取和模型构建方法的不同可以将机器译文质量估计分为基于传统机器学习的方法、基于神经翻译模型的方法和基于预训练语言模型的方法。早期机器译文质量估计研究大都是基于传统机器学习的方法,主要采用“特征工程+任务建模”的方式进行机器译文质量估计,该方法通过人工指定源语言句子和机器译文中与翻译质量相关的特征,利用计算机自动进行语言学分析提取相关特征,使用传统机器学习算法预测机器译文质量。基于神经翻译模型的方法如预测器-估计器模型(predictor-estimator),双语专家模型(bilingual expert)等,通过迁移学习利用神经网络翻译模型部分网络层提取机器译文质量特征。基于预训练语言模型的方法利用在海量文本数据上预训练好的语言模型提取表征机器译文质量的特征,构建神经网络模型预测机器译文质量。
3、当前,基于预训练语言模型的机器译文质量估计方法仅在单个语义空间提取源语言句子和机器译文的质量特征,导致提取的质量特征很难准确地反映机器译文质量。为了有效缓解上述问题,本技术提出了一种基于多语义空间的机器译文质量估计方法,通过提示利用大语言模型生成源语言句子的伪参考译文和机器译文的回译,将源语言句子与回译、源语言句子与机器译文、和伪参考译文与机器译文这三种句对进行比较,提取不同语义空间的机器译文质量特征向量,将不同语义空间的机器译文质量特征向量深度融合成多语义空间机器译文质量特征向量,使用多语义空间机器译文质量特征向量预测机器译文质量。该方法的出发点是机器译文与伪参考译文越相似,源语言句子与回译越相似,机器译文的质量越高。
4、机器译文质量估计方法通常在源语言和目标语言组成的跨语言空间利用跨语言预训练模型xlm-r提取特征。跨语言预训练模型xlm-r采用扩展词汇量和加大模型参数的策略,通过在100种语言的大规模单语数据集上进行无监督的预训练,显著提高了其在跨语言理解和低资源语言等任务上的表现。但是随着跨语言预训练模型xlm-r支持语言数量的增加,单个语言能够分配到的资源将减少,这导致模型对某些语言种类,特别是低资源语言的表示能力减弱。跨语言预训练模型x-mod是一种模块化的跨语言预训练模型,它结合了共享和特定于语言种类的参数。具体来说,跨语言预训练模型x-mod在每个转换器层(transformer层)中都加入了针对每种语言的模块,这些模块是瓶颈前馈神经网络层,并且是特定于该语言种类的。尽管模型的总参数量随着语言数量的增加而线性增长,但由于在相关语言的输入上只使用该语言的模块,因此训练和推理的成本并没有增加。跨语言预训练模型x-mod模型通过在预训练期间就引入模块化组件,不仅能够有效地缓解不同语言之间的噪音干扰,而且还能够实现对低资源语言性能的积极迁移。因此本专利使用跨语言预训练模型x-mod提取表征机器译文质量的特征。
技术实现思路
1、本发明提供了一种基于多语义空间的机器译文质量估计方法,以提高机器译文质量估计的效果。
2、本发明采用的技术方案如下:一种基于多语义空间的机器译文质量估计方法,分为机器译文质量估计模型训练和机器译文质量估计;其中机器译文质量估计模型训练,方法步骤如下:
3、步骤s1,获取训练集,对训练集进行规范化处理,获得规范化处理后的训练集;
4、训练集由不同的多个样本组成,每个样本包括源语言句子、机器译文和机器译文的人类评价分值;
5、步骤s2,利用对话大语言模型生成伪参考译文和回译;
6、步骤s3,提取在源语言语义空间的机器译文质量特征;
7、步骤s4,提取在目标语言语义空间的机器译文质量特征;
8、步骤s5,提取在跨语言语义空间的机器译文质量特征;
9、步骤s6,提取多语义空间机器译文质量特征向量;
10、将步骤s3中在源语言语义空间的机器译文质量特征、步骤s4中在目标语言语义空间的机器译文质量特征和步骤s5中在跨语言语义空间的机器译文质量特征进行拼接,输入到多头自注意力网络层,获取多语义空间机器译文质量特征向量;
11、步骤s7,预测基于多语义空间的机器译文质量得分;
12、将步骤s6中多语义空间机器译文质量特征向量输入到前馈神经网络层,预测基于多语义空间的机器译文质量得分;
13、步骤s8,训练基于多语义空间的机器译文质量估计模型;
14、根据步骤s7中预测的基于多语义空间的机器译文质量得分和步骤s1中规范化处理后的训练集内机器译文的人类评价分值,通过最小化在训练集上的均方差损失来优化基于多语义空间的机器译文质量估计模型的参数,得到训练后的基于多语义空间的机器译文质量估计模型。
15、进一步的,步骤s1中训练集由不同的多个样本组成,每个样本具体为:
16、给定训练集中一个样本d={src, mt, y},其中d表示一个训练样本,src表示源语言句子, mt表示机器译文, y表示机器译文mt的人类评价分值。
17、进一步的,步骤s2中利用对话大语言模型生成伪参考译文和回译,具体为:
18、步骤s21,使用翻译提示将规范化处理后的训练集内每个样本中源语言句子输入到对话大语言模型,使源语言句子生成对应目标语言的翻译;
19、 (1);
20、其中,pref表示对话大语言模型生成的源语言句子的目标语言的翻译,llm( )表示对话大语言模型输出函数,promptpref 表示正向翻译提示,src表示源语言句子;
21、步骤s22,将源语言句子的目标语言的翻译pref作为机器译文的伪参考译文;
22、步骤s23,使用翻译提示将规范化处理后的训练集内每个样本中机器译文输入到对话大语言模型,使机器译文生成对应源语言的翻译;
23、 (2);
24、其中,bt表示对话大语言模型生成的机器译文的源语言的翻译,mt表示机器译文;
25、步骤s24,将机器译文的源语言的翻译bt作为源语言句子的回译。
26、进一步的,步骤s3中提取在源语言语义空间的机器译文质量特征;具体为:
27、步骤s31,将规范化处理后的训练集内每个样本中源语言句子和回译拼接成源语言句对序列;
28、 (3);
29、其中,xsrc_bt表示源语言句对序列,符号“[s]”表示源语言句对序列的起始符,符号“[sep]”表示句子间的分隔符,符号“[/s]”表示源语言句对序列的结束符;
30、步骤s32,将源语言句对序列输入到跨语言预训练模型x-mod中,提取在源语言语义空间统一表征;
31、 (4);
32、 (5);
33、其中,hsrc_bt表示跨语言预训练模型x-mod生成的源语言句对序列的子词级表征,x-mod( )表示跨语言预训练模型x-mod输出函数,hsrc_bt表示在源语言语义空间统一表征,即源语言句对序列的子词级表征的起始符“[s]”的表征,符号“[0]”表示取表征数组的第一个元素操作;
34、步骤s33,将规范化处理后的训练集内每个样本中源语言句子和回译分别独立输入到跨语言预训练模型x-mod中,提取源语言句子子词级表征和回译子词级表征;
35、 (6);
36、 (7);
37、其中,hsrc表示源语言句子子词级表征,hbt表示回译子词级表征;
38、步骤s34,通过平均池化和交互推理增强获得在源语言语义空间独立增强表征;
39、 (8);
40、 (9);
41、 (10);
42、其中,hsrc表示源语言句子整体表征,hbt表示回译整体表征,vsrc_bt表示在源语言语义空间独立增强表征;avgpool( )表示平均池化函数, “⊕”为向量拼接操作,用于融合多方面表征信息,符号“-”为向量间的减法操作,用于捕捉句对间的差异特征,符号“| |”表示向量逐元素取绝对值操作,“”为向量逐元素相乘操作,用于获取向量的交互特征;
43、步骤s35,将在源语言语义空间统一表征和在源语言语义空间独立增强表征拼接,获取在源语言语义空间的机器译文质量特征;
44、 (11);
45、其中,esrc_bt表示在源语言语义空间的机器译文质量特征。
46、进一步的,步骤s4中提取在目标语言语义空间的机器译文质量特征,具体为:
47、步骤s41,将规范化处理后的训练集内每个样本中机器译文和伪参考译文拼接成目标语言句对序列:
48、 (12);
49、其中,xmt_pref表示目标语言句对序列;
50、步骤s42,将目标语言句对序列输入到跨语言预训练模型x-mod中提取在目标语言语义空间统一表征:
51、 (13);
52、 (14);
53、其中,hmt_pref表示跨语言预训练模型x-mod生成的目标语言句对序列的子词级表征, hmt_pref表示在目标语言语义空间统一表征,即源语言句对序列的子词级表征的起始符“[s]”的表征;
54、步骤s43,将规范化处理后的训练集内每个样本中机器译文和伪参考译文分别独立输入到跨语言预训练模型x-mod中,提取机器译文子词级表征和伪参考译文子词级表征:
55、 (15);
56、 (16);
57、其中,hmt表示机器译文子词级表征,hpref表示伪参考译文子词级表征;
58、步骤s44,通过平均池化和交互推理增强获得在目标语言语义空间独立增强表征:
59、 (17);
60、 (18);
61、 (19);
62、其中,hmt表示机器译文整体表征,hpref表示伪参考译文整体表征,vmt_pref表示在目标语言语义空间独立增强表征;
63、步骤s45,将在目标语言语义空间统一表征和在目标语言语义空间独立增强表征拼接获取在目标语言语义空间的机器译文质量特征:
64、 (20);
65、其中,emt_pref表示在目标语言语义空间的机器译文质量特征。
66、进一步的,步骤s5中提取在跨语言语义空间的机器译文质量特征,具体为:
67、步骤s51,将规范化处理后的训练集内每个样本中源语言句子和机器译文拼接成跨语言句对序列:
68、 (21);
69、其中,xsrc_mt表示跨语言句对序列;
70、步骤s52,将跨语言句对序列输入到跨语言预训练模型x-mod中提取在跨语言语义空间统一表征:
71、 (22);
72、 (23);
73、其中,hsrc_mt表示跨语言预训练模型x-mod生成的跨语言句对序列的子词级表征,hsrc_mt表示在跨语言语义空间统一表征,即源语言句对序列的子词级表征的起始符“[s]”的表征;
74、步骤s53,对源语言句子整体表征和机器译文整体表征通过交互推理增强获得在跨语言语义空间独立增强表征:
75、 (24);
76、其中, vsrc_mt表示在跨语言语义空间独立增强表征;
77、步骤s54,将在跨语言语义空间统一表征和在跨语言语义空间独立增强表征拼接获取在跨语言语义空间的机器译文质量特征:
78、 (25);
79、其中,esrc_mt表示在跨语言语义空间的机器译文质量特征。
80、进一步的,步骤s6中提取多语义空间机器译文质量特征向量,具体为:
81、将步骤s3中在源语言语义空间的机器译文质量特征、步骤s4中在目标语言语义空间的机器译文质量特征、和步骤s5中在跨语言语义空间的机器译文质量特征拼接输入多头自注意力网络层获取多语义空间机器译文质量特征向量:
82、 (26);
83、 (27);
84、其中,emulti为多语义空间拼接向量,multi-head( )为多头自注意力网络层函数,eqe为多语义空间机器译文质量特征向量。
85、进一步的,步骤s7中预测基于多语义空间的机器译文质量得分,具体为:
86、将步骤s6中多语义空间机器译文质量特征向量输入前馈神经网络层预测基于多语义空间的机器译文质量得分:
87、 (28);
88、其中,参数w1,w2,b1,b2为前馈神经网络层的参数,tanh( )为前馈神经网络层的激活函数,qescore为基于多语义空间的机器译文质量得分。
89、进一步的,步骤s8中均方差损失见公式(29)所示;
90、 (29);
91、其中,loss表示在训练集上的均方差损失,n表示训练集中样本的数量,i表示训练集中第i条样本,y(i)表示训练集中第i条样本机器译文的人类评价分值,qescore(i)表示第i条样本预测的基于多语义空间的机器译文质量得分。
92、进一步的,本发明采用的另外一种技术方案:一种基于多语义空间的机器译文质量估计方法,其中机器译文质量估计,还包括有以下步骤:
93、步骤s9,对源语言句子和待质量估计的机器译文进行规范化处理;
94、步骤s10,将步骤s9中规范化处理后的源语言句子和机器译文输入至步骤s8中训练后的基于多语义空间的机器译文质量估计模型,预测机器译文质量得分。
95、本发明的有益效果是:本发明将机器译文质量估计方法分解为,利用对话大语言模型生成源语言句子的翻译并将其作为伪参考译文,利用对话大语言模型生成机器译文的翻译并将其作为回译;在源语言语义空间根据源语言句子和回译抽取在源语言语义空间的机器译文质量特征,在目标语言语义空间根据机器译文和回译抽取在目标语言语义空间的机器译文质量特征,在跨语言语义空间根据源语言句子和机器译文抽取在跨语言语义空间的机器译文质量特征;拼接三方面机器译文质量特征并利用多头自注意力网络层提取多语义空间机器译文质量特征向量;利用前馈神经网络层预测基于多语义空间的机器译文质量得分;有效提高了机器译文质量估计的效果。
1.一种基于多语义空间的机器译文质量估计方法,分为机器译文质量估计模型训练和机器译文质量估计;其中机器译文质量估计模型训练,其特征在于:方法步骤如下:
2.根据权利要求1所述的一种基于多语义空间的机器译文质量估计方法,其特征在于:步骤s1中训练集由不同的多个样本组成,每个样本具体为:
3.根据权利要求2所述的一种基于多语义空间的机器译文质量估计方法,其特征在于:步骤s2中利用对话大语言模型生成伪参考译文和回译,具体为:
4.根据权利要求3所述的一种基于多语义空间的机器译文质量估计方法,其特征在于:步骤s3中提取在源语言语义空间的机器译文质量特征;具体为:
5.根据权利要求4所述的一种基于多语义空间的机器译文质量估计方法,其特征在于:步骤s4中提取在目标语言语义空间的机器译文质量特征,具体为:
6.根据权利要求5所述的一种基于多语义空间的机器译文质量估计方法,其特征在于:步骤s5中提取在跨语言语义空间的机器译文质量特征,具体为:
7.根据权利要求6所述的一种基于多语义空间的机器译文质量估计方法,其特征在于:步骤s6中提取多语义空间机器译文质量特征向量,具体为:
8.根据权利要求7所述的一种基于多语义空间的机器译文质量估计方法,其特征在于:步骤s7中预测基于多语义空间的机器译文质量得分,具体为:
9.根据权利要求8所述的一种基于多语义空间的机器译文质量估计方法,其特征在于:步骤s8中均方差损失见公式(29)所示;
10.根据权利要求9所述的一种基于多语义空间的机器译文质量估计方法,其中机器译文质量估计,其特征在于:还包括有以下步骤:
