1.本发明涉及一种低样本关系抽取方法,特别是涉及一种基于多选匹配网络及其预训练和在线训练方式的低样本关系抽取方法及装置,属于自然语言处理技术领域。
背景技术:
2.关系抽取是信息抽取以及自然语言理解中的一个重要任务。该任务旨在给定上下文的情况下,识别出其中一对实体所表达的关系类别。例如。给定上下文“a为b公司创始人”,以及实体对“a”和“b公司”,一个关系抽取系统应当能够正确识别出该实体对表达了“是
…
的创始人”的关系。
3.近年来,随着深度学习方法的发展,关系抽取系统的准确率有了大幅提升。但这类方法需要大量高质量标注数据进行模型的训练,从而导致标注成本过大。同时,此类方法得到的模型泛化性较差,无法迁移到新的关系类别和领域。
4.为此,低样本关系抽取任务近年来得到广泛关注。该任务旨在将已有关系抽取模型中的知识,在仅有少量标注样本,甚至没有标注样本的情况下,迁移到目标关系抽取任务中。常见的低样本关系抽取任务包括零样本关系抽取以及少样本关系抽取。在零样本关系抽取任务中,模型需要在仅有额外知识(通常为关系类别的描述或名称),而无任何标注实例的情况下,将已有关系抽取模型泛化到目标任务中。而少样本关系抽取模型则依赖于新关系类别下仅有的少量标注实例(通常每个新类别为1或5个),进行目标关系抽取任务的泛化。
5.传统的统一低样本关系抽取可以分为两大类,第一类方式将关系抽取任务建模为文本蕴含任务,通过将包含关系类别信息的文本或者已标注实例与待分类实例进行拼接和共同编码,判断两者是否匹配以进行关系抽取。第二类方式将关系抽取建模为机器阅读理解任务,利用模板生成包含关系类别信息的问句,并对待分类实例进行查询,若生成或抽取得到的答案征确,则认为表达了相应的关系类别。
6.然而,由于上述方法在编码或者解码端存在计算复杂度高的瓶颈,使得关系抽取计算代价过大,程序运行速度难以满足实际需求。
技术实现要素:
7.为克服现有统一低样本关系抽取方法计算代价大的问题,本发明提出了一种基于多选匹配网络的统一关系抽取方法及装置,将关系抽取建模为计算十分方便的多选匹配任务,并利用任务特定的预训练方式,对多选匹配网络进行特定的优化和训练,从而避免了模型计算代价大的问题。
8.为达上述目的,本发明采用具体技术方案是:
9.一种基于多选匹配网络的统一低样本关系抽取方法,其步骤包括:
10.将当前任务的所有关系描述拼接成一条多选语句;
11.将待分类实例与上述多选语句合并,共同输入多选匹配网络的编码器中;
12.将编码器编码后的待分类实例的表示与多选语句中每个关系的表示进行匹配,将相似度最大的关系作为预测结果,得到关系抽取结果。
13.进一步地,通过以下步骤得到训练好的多选匹配网络:
14.a)在大规模开放域文本中,通过openie工具,从中抽取得到(主语,谓语,宾语)三元组,三元组的每个部分均为原文本中的文本片段。
15.b)将抽取得到的大量三元组,通过预训练好的生成式语言模型,生成包含三元组语义的对应的复述文本。
16.c)提取上述三元组中的谓语作为对应生成的复述文本的关系描述,并通过负采样策略,为每个实例采样多个负例关系,按照上述多选匹配网络的方式进行关系预测和抽取,并计算关系抽取的损失函数。其中“负例关系”是指负例三元组中谓语所表达的语义关系。
17.d)对于每个包含少量标注样本的新任务,利用该少量标注样本的标签,计算多选匹配网络输出的关系抽取结果的损失函数,通过在线学习的方式进行多选匹配网络的模型更新。
18.进一步地,所述编码器包括:bert、roberta等模型。
19.进一步地,所述大规模开放域文本包括:wikipedia文章所包含的文本。
20.进一步地,所述openie工具包括:开源的openie 5.0工具。
21.进一步地,所述生成式语言模型包括:t5、bart等模型。
22.一种采用上述方法的基于多选匹配网络的统一低样本关系抽取装置,其包括:
23.模型训练模块,用于训练多选匹配网络;
24.关系抽取模块,用于将当前任务的所有关系描述拼接成一条多选语句,将待分类实例与多选语句合并,共同输入训练完成的多选匹配网络的编码器中,将编码器编码后的待分类实例的表示与多选语句中每个关系的表示进行匹配,将相似度最大的关系作为预测结果,得到关系抽取结果。
25.与现有技术相比,本发明的积极效果是:
26.1)基于多选匹配网络,能够大大降低关系抽取模型的计算代价和计算速度。
27.2)基于文本-三元组-文本的与训练方式,能够充分利用大规模文本数据,对模型进行充分初始化,增强模型的泛化性。
28.3)基于在线学习训练方式,能够充分利用下游任务中少量的标注样例,对模型进行在线学习,进一步拟合当前任务,提高模型性能。
附图说明
29.图1为多选匹配网络的模型图。
30.图2为针对多选匹配网络的预训练以及在线训练方法框架图。
具体实施方式
31.为了使本技术领域的人员更好地理解本发明实施例中的技术方案,并使本发明的目的、特征和优点能够更加明显易懂,下面结合附图对本发明中技术核心作进一步详细的说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
32.本发明的基于多选匹配网络的统一低样本关系抽取方法,其关键步骤包括:
33.1)基于多选匹配网络的统一低样本关系抽取模型,将关系抽取统一建模为多选匹配任务,大大降低模型计算复杂度。
34.2)基于上述模型,提出了文本-三元组-文本的预训练方式,利用大规模无监督文本对模型进行预训练。同时利用新任务中包含的少量标注实例,对模型进行进一步地在线学习和训练。
35.3)基于上述得到的模型,对新任务下的实例进行多选匹配,得到低样本关系抽取的结果。
36.本发明涉及以下所述的关键要素:
37.1.面向低样本关系抽取的多选匹配网络
38.在低样本关系抽取任务中,大多数方法基于文本蕴含或者机器阅读理解范式,该范式通常需要对每个关系每个实例进行单独编码和抽取,计算复杂度高,速度慢,导致模型难以实际应用。
39.为此,本发明提出了一个更加高效的统一低样本关系抽取模型,即多选匹配网络。多选匹配网络是将待分类实例与多个选项进行匹配并选取最相似选项作为输出的一种神经网络模型。编码器是多选匹配网络中的一个模块。该多选匹配网络通过将关系抽取建模为多选匹配任务,大大降低模型的计算复杂度,提升模型的并行效率。如图1所示,对任意新关系抽取任务,先将其所有目标关系通过“[choice]”特殊标识符分割串联起来,作为每个查询实例的多选语句。对于每个待分类的查询实例,将其中的头实体和尾实体分别用“[e1][/e1]”和“[e2][/e2]”插入两侧标记与其他字符进行区分,并将处理完的实例拼接在多选语句之后。
[0040]
例如,对包含(“是
…
的雇员”,“是
…
的ceo”,“其他”)三类关系的抽取任务,以及查询实例“库克是苹果公司的ceo”,将其处理为:“[cls][choice]是
…
的雇员[choice]是
…
的ceo[choice]其他[sep][e1]库克[/e1]是[e2]苹果公司[/e2]的ceo”。随后将该处理后的实例输入多选匹配网络中的编码器模块中进行编码:
[0041][0042]
其中h为每个字符经编码器编码后的表示向量,d为向量维数。
[0043]
经过编码后,将头尾实体的表示平均后作为整个实例的表示:
[0044]hins
=avg(h
[e1]
,h
[e2]
)
[0045]
其中h
[e1]
和h
[e2]
分别为头实体和尾实体经编码后的表示向量。
[0046]
将多选语句中特殊标识符“[choice]”的表示作为每个候选关系的表示。将候选关系表示分别与实例表示计算相似度:
[0047][0048]
其中d(.)为距离函数,为候选关系的表示,并通过相似度计算每个关系类别的概率:
[0049][0050]
其中θ为模型参数,n为关系类别数量,z为包含所有关系信息的多选语句,yi表示
第i个关系类别,p(yi|x,z;θ)表示当前复述实例x属于关系yi的概率。最后选择相似度最高的关系作为预测结果,输出关系抽取结果:
[0051][0052]
2.基于三元组-复述的预训练方法
[0053]
为了利用大规模的无标注语料,提升多选匹配网络的泛化性,并给模型提供一个较优的初始化参数,本发明提出了对应的三元组-复述预训练方法。由于大规模预料并没有对应的关系类别标注信息,且对特定的关系类别进行预训练容易导致模型过拟合,因此采用三元组抽取的方式,将三元组中的谓词作为关系的描述,这样可以得到大量不同的关系描述。随后根据抽取出的三元组,生成对应的复述文本,并由此进行对应的三元组-复述预训练。具体如图2中(a)和(b)所示。
[0054]
2.1大规模三元组抽取
[0055]
该部分从大规模纯文本中抽取得到大量三元组。该部分使用到的抽取工具为openie开源工具。openie旨在从纯文本中进行三元组标注,包括主语,谓语和宾语,这三部分均来自于纯文本中的相应片段。谓语部分在语言学中,表达的是主语宾语之间的性质或关系,因此也可当作一种特定的关系描述。
[0056]
2.2复述文本生成
[0057]
此部分利用生成式预训练语言模型,对上述抽取得到的三元组进行对应的文本生成,可得到原始文本对应的复述语句,即复述文本,如图2中(a)所示。具体而言,先将上述的每个三元组用“[h]”、“[r]”、“[t]”分别拼接在主语、谓语和宾语之前,得到新的结构化文本。随后将这样的结构化文本输入已预训练好的生成器(即生成式语言模型)中,生成对应的复述文本。随后利用生成的复述文本和抽取得到的谓词进行多选匹配网络的预训练。
[0058]
2.3模型预训练
[0059]
对于上述得到的大量复述文本和三元组,采用元学习方式进行多选匹配网络的预训练,如图2中(b)所示。具体而言,每轮训练随机采样n个三元组-复述对,将这n个三元组中的谓词作为关系描述,即构成了包含n个关系类别的新抽取任务,按照多选匹配网络的方式拼接成多选语句。随后将每个复述文本与该多选语句进行拼接输入多选匹配网络中,得到对应的抽取结果,并根据实际对应的谓词计算多选匹配网络的损失函数:
[0060][0061]
其中,θ为待学习的模型参数,(x,y)为复述-三元组对,i(.)为指示函数,当yi为该复述文本x对应的谓词时i(.)为1,否则为0。z即为包含所有关系信息的多选语句。yi表示第i个关系类别,n表示上文所提关系类别数量,p(yi|x,z;θ)表示当前复述实例x属于关系yi的概率。
[0062]
除此之外,本发明还利用了有标注的关系抽取数据集进行了进一步的原训练,并添加了“以上均不是”类别,作为其他关系类别实例对应的选项,增强模型的鲁棒性。
[0063]
3.基于在线元学习的新任务预测
[0064]
针对每个新的关系抽取任务,为了充分利用其中可能包含的少量标注样本,本发
明采用了在线学习方式对每个新任务进行了进一步泛化和训练。具体而言,就是对每个新任务所包含的n个类别,以及每个类别可能包含的k个标注样本,将这n*k个样本以小批次形式送入多选匹配网络中,并对其预测结果计算对应损失函数,以此来更新模型。当预测下一个任务时,则将模型参数重置为在线学习前的参数,再进行该任务的在线学习。如图2中(c)所示,其中,d表示通过三元组抽取和复述文本生成构建的大规模预训练数据集,(xd,yd)表示预训练数据集d中包含的一个实例xd与其对应的关系描述yd,ld表示多选匹配网络在预训练数据集上训练的损失函数,θ*表示多选匹配网络的模型参数,(xr,yr)表示在线学习任务中的一个实例xr和其对应的关系描述yr,qr表示在线学习任务的待抽取实例集合,lr表示多选匹配网络在该任务的标注数据集下的训练损失函数,f
θ
表示预训练阶段多选匹配网络所表示的映射函数,f
θ*
表示在线学习阶段多选匹配网络所表示的映射函数,表示预训练阶段,多选匹配网络在数据集d下损失函数对应的更新梯度,表示在线学习阶段,多选匹配网络在数据集r下,损失函数对应的更新梯度。
[0065]
实施例:
[0066]
对包含如下三个关系类别的关系抽取任务:“雇员”、“雇主”、“投资人”,待分类实例为:“库克是苹果公司的首席执行官”,将其进行对应的处理,并通过多选匹配网络进行关系抽取。
[0067]
实施:
[0068]
(一)将当前任务所有目标关系的描述。拼接成多选语句:
[0069]
[choice]雇员[choice]雇主[choice]投资人[choice]其他
[0070]
(二)将待分类实例与多选语句进行拼接处理:
[0071]
[choice]雇员[choice]雇主[choice]投资人[choice]其他[sep][e1]库克[/e1]是[e2]苹果公司[/e2]的首席执行官
[0072]
(三)将上述处理完的结果输入多选匹配网络中,并计算待分类实例与各类别之间的相似度,最为相似的关系即为预测结果。该实施例中预测结果为“雇主”。
[0073]
实验数据:使用fewrel数据集,分别对零样本关系抽取任务、小样本关系抽取任务以及带拒识的小样本关系抽取任务进行测试,测试结果如表1所示,本发明在所有任务下的准确率均高于其他对比模型。
[0074]
表1.测试结果
[0075][0076]
本发明方法的其他实施例中,包括但不限于使用t5模型进行的复述生成方式。
[0077]
本发明方法的其他实施例中,包括但不限于使用“[cls]”、“[choice]”、“[sep]”、“[e1]”、“[e2]”等特殊字符对文本进行处理,用以标记句子、关系和实体。
[0078]
基于同一发明构思,本发明的另一个实施例提供一种采用上述方法的基于多选匹配网络的统一低样本关系抽取装置,其包括:
[0079]
模型训练模块,用于训练多选匹配网络;
[0080]
关系抽取模块,用于将当前任务的所有关系描述拼接成一条多选语句,将待分类实例与多选语句合并,共同输入训练完成的多选匹配网络的编码器中,将编码器编码后的待分类实例的表示与多选语句中每个关系的表示进行匹配,将相似度最大的关系作为预测结果,即得到关系抽取结果。
[0081]
基于同一发明构思,本发明的另一实施例提供一种电子装置(计算机、服务器、智能手机等),其包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行本发明方法中各步骤的指令。
[0082]
基于同一发明构思,本发明的另一实施例提供一种计算机可读存储介质(如rom/ram、磁盘、光盘),所述计算机可读存储介质存储计算机程序,所述计算机程序被计算机执行时,实现本发明方法的各个步骤。
[0083]
以上所述实施例仅表达了本发明的实施方式,其描述较为具体,但并不能因此理解为对本发明范围的限制。应当指出,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明的保护范围应当以所附权利要求为准。
转载请注明原文地址:https://tc.8miu.com/read-145.html