本申请涉及科技实体对齐,尤其涉及一种专业领域科技术语挖掘与聚合技术。
背景技术:
1、科技文献作为科学研究成果的核心载体,其分析与理解对科学进步和技术创新具有至关重要的作用。在这一过程中,科技术语的识别是实现深度知识挖掘的关键步骤,因为这些科技术语及其相互之间的关系构成了科学知识网络的基础。然而,传统识别方法往往依赖于简单的规则匹配,常常受限于专业术语的多样性和上下文的复杂性,难以充分捕捉科技文献的深层含义。
2、目前,现有技术在处理科技术语间复杂关系和语义相似性时,往往缺乏足够的灵活性和准确性,导致科技术语对齐的精准性和可靠性较差的技术问题。
技术实现思路
1、本申请的目的是提供一种专业领域科技术语挖掘与聚合技术,用以解决现有技术在处理科技术语间复杂关系和语义相似性时,往往缺乏足够的灵活性和准确性,导致科技术语对齐的精准性和可靠性较差的技术问题。
2、鉴于上述问题,本申请提供了一种专业领域科技术语挖掘与聚合技术,包括:以专业领域学科范围为约束,检索获取样本科技文献集,对所述样本科技文献集进行预处理,得到标准科技文献集;利用大语言模型,按照预定抽取策略对所述标准科技文献集进行科技实体要素抽取,基于科技实体要素抽取结果构建目标科技图谱;通过图编码器对所述目标科技图谱进行编码,输出图节点向量;基于预定识别规则,对所述科技实体要素抽取结果进行科技术语识别,获取科技术语,其中,预定识别规则包括实体类型层面、术语长度层面和术语频次层面;基于上下文感知机制,利用关键词提取所述标准科技文献集中科技术语的上下文信息,结合大语言模型生成术语相关定义,通过大语言模型中的文本编码器对所述术语相关定义进行编码,输出术语定义文本向量;执行所述图节点向量和所述术语定义文本向量的文本逐步对齐,在文本对齐过程中对所述图编码器进行微调优化,得到优化图编码器;将所述优化图编码器嵌入大语言模型框架中,生成融合图结构信息的大语言模型,通过所述融合图结构信息的大语言模型对待识别术语进行聚合。
3、本申请中提供的一个或多个技术方案,至少具有如下技术效果或优点:
4、通过以专业领域学科范围为约束,检索获取样本科技文献集,对所述样本科技文献集进行预处理,得到标准科技文献集;利用大语言模型,按照预定抽取策略对所述标准科技文献集进行科技实体要素抽取,基于科技实体要素抽取结果构建目标科技图谱;通过图编码器对所述目标科技图谱进行编码,输出图节点向量;基于预定识别规则,对所述科技实体要素抽取结果进行科技术语识别,获取科技术语,其中,预定识别规则包括实体类型层面、术语长度层面和术语频次层面;基于上下文感知机制,利用关键词提取所述标准科技文献集中科技术语的上下文信息,结合大语言模型生成术语相关定义,通过大语言模型中的文本编码器对所述术语相关定义进行编码,输出术语定义文本向量;执行所述图节点向量和所述术语定义文本向量的文本逐步对齐,在文本对齐过程中对所述图编码器进行微调优化,得到优化图编码器;将所述优化图编码器嵌入大语言模型框架中,生成融合图结构信息的大语言模型,通过所述融合图结构信息的大语言模型对待识别术语进行聚合。也就是说,通过引入大语言模型的智能知识抽取能力和复杂语义理解能力,可以提升科技术语识别的准确性和术语知识的全面性,同时综合利用图谱信息和上下文信息,开展多层次的匹配判断,从而实现更为精准的科技术语对齐。
5、上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其他目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其他特征将通过以下的说明书而变得容易理解。
1.专业领域科技术语挖掘与聚合技术,其特征在于,包括:
2.根据权利要求1所述的专业领域科技术语挖掘与聚合技术,其特征在于,基于科技实体要素抽取结果构建目标科技图谱,包括:
3.根据权利要求1所述的专业领域科技术语挖掘与聚合技术,其特征在于,输出图节点向量,包括:
4.根据权利要求1所述的专业领域科技术语挖掘与聚合技术,其特征在于,输出术语定义文本向量,包括:
5.根据权利要求1所述的专业领域科技术语挖掘与聚合技术,其特征在于,得到优化图编码器,包括:
6.根据权利要求5所述的专业领域科技术语挖掘与聚合技术,其特征在于,进行第一阶段微调优化,包括:
7.根据权利要求5所述的专业领域科技术语挖掘与聚合技术,其特征在于,进行第二阶段微调优化,包括:
8.根据权利要求1所述的专业领域科技术语挖掘与聚合技术,其特征在于,通过所述融合图结构信息的大语言模型对待识别术语进行聚合,包括: