本技术涉及大数据,尤其涉及一种基于多智能体协同的事件抽取方法、系统及装置。
背景技术:
1、随着自然语言处理技术的不断发展,事件抽取已成为信息抽取领域的关键任务之一。事件抽取旨在从非结构化文本中识别出事件及其相关的实体、触发词和伦元(如事件的时间、地点、参与者等)。然而,由于非结构化文本的语义复杂性和事件表达的多样性,传统的事件抽取方法在面对大规模、多类型事件时表现出明显的局限性。
2、当前的事件抽取方法主要包括以下几种:
3、基于模板匹配的事件抽取方法:此类方法依赖于预定义的事件模板,对文本进行匹配来识别事件。然而,模板匹配方法需要针对大量事件类型手动构建模板,不仅耗时费力,而且由于事件描述形式的多变,单一模板难以适应多样化的文本表达,导致在实际应用中的泛化能力不足。
4、基于机器学习的事件抽取方法:该方法通过人工设计的特征来进行事件识别,但这些特征往往是基于词汇统计的浅层特征,无法抽象出事件描述的高阶语义信息。结果是,基于手工特征的事件抽取方法在处理复杂和多层次语义信息时效果不佳,难以捕捉事件之间的深层联系。
5、基于深度学习的事件抽取方法:深度学习方法能够自动学习文本中的复杂特征,并取得了较好的效果。然而,这类方法通常依赖于大规模的标注数据进行训练,数据标注成本高昂。同时,模型的泛化能力往往不足,在处理未见过的新事件类型或跨领域文本时,效果不尽如人意。
6、基于预训练语言模型的事件抽取方法:近年来,预训练语言模型(如bert、gpt)在自然语言处理任务中取得了显著进展。通过提示学习(prompt-based learning)技术,预训练语言模型能够在较少的标注数据下执行事件抽取任务,显著减少了对人工标注数据的依赖。然而,此类方法在应对复杂篇章级别的多事件抽取任务时,面临语义信息不足和上下文理解能力受限的问题,尤其难以处理跨句子、跨段落的事件抽取。
7、针对上述传统方法的局限性,本专利提出了一种基于多智能体协同的事件抽取方法。
技术实现思路
1、为了解决上述技术问题,本技术提供了一种基于多智能体协同的事件抽取方法、系统及装置。
2、下面对本技术中提供的技术方案进行描述:
3、本技术第一方面提供了一种基于多智能体协同的事件抽取方法,包括:
4、接收非结构化数据,通过第一智能体调用至少一个第二智能体对所述非结构化数据进行实体识别,获取所述非结构化数据中的实体及其对应的实体类型,并将识别结果存储至信息池中;
5、调用至少一个第三智能体对所述非结构化数据中的触发词进行识别,获取对应的事件类型,并将触发词和事件类型的识别结果存储至信息池中;
6、解析所述触发词和事件类型,基于预定的事件模板库生成伦元角色集合;
7、调用至少一个第四智能体对所述伦元角色集合进行伦元识别,获取伦元及其对应的角色类型,并将识别结果存储至信息池中;
8、将所述非结构化数据切分为不同粒度的文本单元,包括句子、段落和篇章;
9、针对每个文本单元,从信息池中查询涉及的实体、触发词、事件类型、伦元以及角色类型,整合生成对应粒度的上下文提示信息prompt;
10、基于所述上下文提示信息prompt,调用至少一个智能体对句子、段落和篇章粒度的文本分别进行事件识别,获取并存储相应的事件信息;
11、对不同粒度的事件信息进行融合,生成最终的事件抽取结果。
12、可选的,所述解析所述触发词和事件类型,基于预定的事件模板库生成伦元角色集合包括:
13、通过所述第一智能体遍历所有的触发词和事件类型并进行解析,得到所有事件中的伦元角色,形成伦元角色集合;
14、通过所述第一智能体调用第四智能体,对所述伦元角色集合中的各个伦元角色进行伦元识别,得到所有伦元以及所有伦元对应的伦元角色。
15、可选的,将所述非结构化数据切分为不同粒度的文本单元,包括句子、段落和篇章包括:
16、通过所述第一智能体将所述非结构化数据中的非结构化文本分别切分为句子;
17、针对每个文本单元,从信息池中查询涉及的实体、触发词、事件类型、伦元以及角色类型,整合生成对应粒度的上下文提示信息prompt包括:
18、对于每个句子,通过所述第一智能体从信息池中查询涉及的实体、触发词、事件类型、伦元及其对应的伦元角色;
19、通过所述第一智能体,将查询获得的实体、触发词、事件类型、伦元及其对应的伦元角色进行整合,生成句子对应的第一prompt提示信息。
20、可选的,将所述非结构化数据切分为不同粒度的文本单元,包括句子、段落和篇章包括:
21、通过所述第一智能体将所述非结构化数据中的非结构化文本分别切分为段落;
22、针对每个文本单元,从信息池中查询涉及的实体、触发词、事件类型、伦元以及角色类型,整合生成对应粒度的上下文提示信息prompt包括:
23、对于每个段落,通过所述第一智能体从信息池中查询涉及的实体、触发词、事件类型、伦元及其对应的伦元角色;
24、通过所述第一智能体,将查询获得的实体、触发词、事件类型、伦元及其对应的伦元角色进行整合,生成段落对应的第二prompt提示信息。
25、可选的,将所述非结构化数据切分为不同粒度的文本单元,包括句子、段落和篇章包括:
26、通过所述第一智能体将所述非结构化数据中的非结构化文本分别切分为篇章;
27、针对每个文本单元,从信息池中查询涉及的实体、触发词、事件类型、伦元以及角色类型,整合生成对应粒度的上下文提示信息prompt包括:
28、对于每个篇章,通过所述第一智能体从信息池中查询涉及的实体、触发词、事件类型、伦元及其对应的伦元角色;
29、通过所述第一智能体,将查询获得的实体、触发词、事件类型、伦元及其对应的伦元角色进行整合,生成篇章对应的第三prompt提示信息。
30、可选的,所述基于所述上下文提示信息prompt,调用至少一个智能体对句子、段落和篇章粒度的文本分别进行事件识别,获取并存储相应的事件信息包括:
31、通过所述第一智能体将融合了所述上下文信息的第一prompt提示信息作为附加输入内容输入至第五智能体中;
32、通过所述第五智能体,基于所述prompt提示信息进行句子粒度的事件识别,并将识别得到的第一事件信息返回至所述第一智能体的信息池中。
33、可选的,所述基于所述上下文提示信息prompt,调用至少一个智能体对句子、段落和篇章粒度的文本分别进行事件识别,获取并存储相应的事件信息包括:
34、将融合了所述上下文信息的第二prompt提示信息作为附加输入内容输入至第六智能体中;
35、通过所述第六智能体,基于所述prompt提示信息进行段落粒度的事件识别,并将识别得到的第二事件信息返回至所述第一智能体的信息池中。
36、可选的,所述基于所述上下文提示信息prompt,调用至少一个智能体对句子、段落和篇章粒度的文本分别进行事件识别,获取并存储相应的事件信息包括:
37、将融合了所述上下文信息的第三prompt提示信息作为附加输入内容输入至第七智能体中;
38、通过所述第七智能体,基于所述prompt提示信息进行篇章粒度的事件识别,并将识别得到的第三事件信息返回至所述第一智能体的信息池中。
39、可选的,所述对不同粒度的事件信息进行融合,生成最终的事件抽取结果包括:
40、通过第一智能体对所述句子级、段落级和篇章级事件信息进行相似度计算,所述相似度计算基于实体相似度、触发词相似度、事件类型相似度以及伦元相似度;
41、当相似度超过预设阈值时,通过所述第一智能体合并相似的事件信息;
42、在事件类型或伦元角色发生冲突时,优先选择篇章级事件信息,并结合上下文信息对伦元角色进行冲突解决;
43、对句子级和段落级事件信息进行细节补充,将补充后得到的段落级事件信息融入篇章级事件信息中,生成包含细节信息的融合事件;
44、通过所述第一智能体对融合后的事件信息进行排序,构建事件链,所述事件链表示事件之间的时间顺序和因果关系;
45、生成融合后的事件抽取结果。
46、可选的,所述通过第一智能体对所述句子级、段落级和篇章级事件信息进行相似度计算,所述相似度计算基于实体相似度、触发词相似度、事件类型相似度以及伦元相似度包括:
47、分别计算实体相似度、触发词相似度、事件类型相似度以及伦元相似度;
48、并通过下述式子计算总相似度:
49、总相似度=w1×实体相似度+w2×触发词相似度+w3×事件类型相似度+w4×伦元相似度;
50、其中w1,w2,w3,w4分别表示对应的权重。
51、可选的,所述实体相似度、触发词相似度、伦元相似度通过下述式子进行计算:
52、要素相似度(e1,e2)=(v(e1)·v(e2))/(||v(e1)||*||v(e2)||)
53、其中:v(e1)和v(e2)分别是要素e1和要素e2的向量表示。
54、"·"表示向量的点积。
55、"||v(e1)||"和"||v(e2)||"分别表示向量v(e1)和v(e2)的模。
56、可选的,所述事件类型的相似度通过如下式子进行计算:
57、事件类型相似度(c1,c2)=1,若c1=c2;
58、事件类型相似度(c1,c2)=0,若c1≠c2。
59、本技术第二方面提供了一种基于多智能体协同的事件抽取系统,所述系统包括:
60、实体识别单元,用于接收非结构化数据,通过第一智能体调用至少一个第二智能体对所述非结构化数据进行实体识别,获取所述非结构化数据中的实体及其对应的实体类型,并将识别结果存储至信息池中;
61、事件类型处理单元,用于调用至少一个第三智能体对所述非结构化数据中的触发词进行识别,获取对应的事件类型,并将触发词和事件类型的识别结果存储至信息池中;
62、解析单元,用于解析所述触发词和事件类型,基于预定的事件模板库生成伦元角色集合;
63、调用至少一个第四智能体对所述伦元角色集合进行伦元识别,获取伦元及其对应的角色类型,并将识别结果存储至信息池中;
64、将所述非结构化数据切分为不同粒度的文本单元,包括句子、段落和篇章;
65、针对每个文本单元,从信息池中查询涉及的实体、触发词、事件类型、伦元以及角色类型,整合生成对应粒度的上下文提示信息prompt;
66、基于所述上下文提示信息prompt,调用至少一个智能体对句子、段落和篇章粒度的文本分别进行事件识别,获取并存储相应的事件信息;
67、对不同粒度的事件信息进行融合,生成最终的事件抽取结果。
68、本技术第三方面提供了一种基于多智能体协同的事件抽取装置,所述装置包括:
69、处理器、存储器、输入输出单元以及总线;
70、所述处理器与所述存储器、所述输入输出单元以及所述总线相连;
71、所述存储器保存有程序,所述处理器调用所述程序以执行第一方面以及第一方面中任一项可选的所述方法。
72、本技术第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质上保存有程序,所述程序在计算机上执行时执行第一方面以及第一方面中任一项可选的所述方法。
73、从以上技术方案可以看出,本技术具有以下优点:
74、1、通过将非结构化数据切分为句子、段落和篇章级的不同粒度文本单元,能够更精确地捕捉不同层次的事件信息。这种分层处理方法提高了事件抽取的全面性和准确性,尤其是在处理篇章级复杂事件时表现尤为突出。
75、3、该方法利用多个智能体协同工作,分别负责实体识别、触发词识别、伦元角色识别等不同任务,使得整个事件抽取流程更加模块化。每个智能体专注于一个特定任务,提升了效率和准确性。
76、4、通过整合实体、触发词、事件类型、伦元及角色类型生成上下文提示信息,并在不同粒度上对事件进行识别,有效利用上下文信息,从而提高了事件抽取的准确性。
77、5、所有智能体的识别结果被存储至信息池,支持不同粒度的文本单元对结果进行共享与查询。这种信息池机制使得智能体之间的信息交流和结果整合更加高效,保证了多粒度事件抽取结果的一致性和完整性。
78、6、通过对句子、段落、篇章级的事件信息进行相似度计算和融合,解决了不同粒度事件信息之间的差异和冲突,确保最终的事件抽取结果更加精准且具备全局视角。
79、7、该方法特别针对篇章级的事件识别进行了优化,使其能够处理篇章级复杂多事件任务,克服了传统方法在篇章级事件抽取上的局限性。
1.一种基于多智能体协同的事件抽取方法,其特征在于,所述方法包括:
2.根据权利要求1中所述的基于多智能体协同的事件抽取方法,其特征在于,所述解析所述触发词和事件类型,基于预定的事件模板库生成伦元角色集合包括:
3.根据权利要求1中所述的基于多智能体协同的事件抽取方法,其特征在于,将所述非结构化数据切分为不同粒度的文本单元,包括句子、段落和篇章包括:
4.根据权利要求1中所述的基于多智能体协同的事件抽取方法,其特征在于,将所述非结构化数据切分为不同粒度的文本单元,包括句子、段落和篇章包括:
5.根据权利要求1中所述的基于多智能体协同的事件抽取方法,其特征在于,将所述非结构化数据切分为不同粒度的文本单元,包括句子、段落和篇章包括:
6.根据权利要求3中所述的基于多智能体协同的事件抽取方法,其特征在于,所述基于所述上下文提示信息prompt,调用至少一个智能体对句子、段落和篇章粒度的文本分别进行事件识别,获取并存储相应的事件信息包括:
7.根据权利要求4中所述的基于多智能体协同的事件抽取方法,其特征在于,所述基于所述上下文提示信息prompt,调用至少一个智能体对句子、段落和篇章粒度的文本分别进行事件识别,获取并存储相应的事件信息包括:
8.根据权利要求5中所述的基于多智能体协同的事件抽取方法,其特征在于,所述基于所述上下文提示信息prompt,调用至少一个智能体对句子、段落和篇章粒度的文本分别进行事件识别,获取并存储相应的事件信息包括:
9.根据权利要求1中所述的基于多智能体协同的事件抽取方法,其特征在于,所述对不同粒度的事件信息进行融合,生成最终的事件抽取结果包括:
10.根据权利要求9中所述的基于多智能体协同的事件抽取方法,其特征在于,所述通过第一智能体对所述句子级、段落级和篇章级事件信息进行相似度计算,所述相似度计算基于实体相似度、触发词相似度、事件类型相似度以及伦元相似度包括:
11.根据权利要求10中所述的基于多智能体协同的事件抽取方法,其特征在于,所述实体相似度、触发词相似度、伦元相似度通过下述式子进行计算:
12.根据权利要求10中所述的基于多智能体协同的事件抽取方法,其特征在于,所述事件类型的相似度通过如下式子进行计算:
13.一种基于多智能体协同的事件抽取系统,其特征在于,所述系统包括:
14.一种基于多智能体协同的事件抽取装置,其特征在于,所述装置包括: