一种融合事件抽取技术的城市遗址知识图谱构建方法、文物数据管理系统及可读存储介质与流程

    专利查询2025-05-07  23


    本发明涉及计算机自然语言处理、事件抽取和知识图谱构建,尤其是涉及一种融合事件抽取技术的城市遗址知识图谱构建方法、文物数据管理系统及可读存储介质。


    背景技术:

    1、事件抽取技术(event extraction, ee)是自然语言处理(nlp)领域中的一项关键技术,旨在从文本数据中自动识别和提取出结构化的事件信息。

    2、事件抽取技术经历了从基于模式匹配到基于机器学习和深度学习的多个发展阶段。目前,基于深度学习的方法已成为主流,这些方法能够自动学习文本中的特征表示,提高事件抽取的准确性和效率。比如目前常用的:

    3、基于模式匹配的方法:通过人工或自动构建的事件模式来匹配文本中的事件信息。这种方法具有较高的精确率,但依赖于大量的人工劳动,且难以覆盖所有类型的事件。

    4、基于机器学习的方法:利用分类器或序列标注模型来自动识别文本中的事件信息。常用的机器学习模型包括支持向量机(svm)、条件随机场(crf)等。

    5、基于深度学习的方法:包括卷积神经网络(cnn)、循环神经网络(rnn)和注意力机制等。这些模型能够自动学习文本中的特征表示,提高事件抽取的准确性和效率。

    6、基于深度学习的方法:包括卷积神经网络(cnn)、循环神经网络(rnn)和注意力机制等。这些模型能够自动学习文本中的特征表示,提高事件抽取的准确性和效率。

    7、知识图谱通常被称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列图形。它通过可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。知识图谱具有多个核心特点,并且已经获得了应用:

    8、多学科融合:结合了应用数学、图形学、信息可视化技术、信息科学等多个学科的理论与方法。

    9、可视化展示:利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构。

    10、动态发展规律揭示:通过数据挖掘、信息处理、知识计量和图形绘制,揭示知识领域的动态发展规律。

    11、知识图谱作为一种结构化的语义知识库,通过将复杂的知识以可视化和结构化的方式组织起来,便于计算机程序理解、存储和检索。近年来,随着人工智能的技术发展和应用,知识图谱作为关键技术之一,已广泛应用于智能搜索、智能问答、个性化推荐、内容分发等领域。

    12、但是,根据调查研究表明,当前文物知识图谱研究中,主要侧重于文物本身的属性描述,如年代、类型、材质、艺术风格等,而对于文物背后的历史事件、人物关系、社会背景等信息的整合和分析则相对不足。城市遗址作为一种独特的文物类型,其背后的历史事件和人物关系往往更加复杂和多样,传统方法的局限性导致其知识图谱在深度和广度上均显的不足,难以满足深入研究和全面展示文物价值的需求,已经不在适应当今社会发展的需要。因此,亟待研究一种全新的城市遗址知识图谱构建方法、文物数据管理系统,不仅能够丰富文物知识图谱的内容,还能够揭示文物与历史事件之间的深层次联系,解决了当前文物知识图谱构建过程中遇到的难题,具有充分的研究意义和使用价值。

    13、应该注意,上面对技术背景的介绍只是为了方便对本发明的技术方案进行清楚、完整的说明,并方便本领域技术人员的理解而阐述的。不能仅仅因为这些技术方案在本发明的技术背景部分进行了阐述而认为上述技术方案为本领域技术人员所公知。


    技术实现思路

    1、本发明的目的在于提供一种融合事件抽取技术的城市遗址知识图谱构建方法、文物数据管理系统和计算机可读存储介质,利用不断检索、丰富和完善的方式,在对数字资源中的出土文物信息进行命名实体识别的基础上,采取大语言模型辅助的事件抽取技术获取与遗址相关的历史事件信息,将遗址与相关历史事i件相结合构建知识图谱,增加知识图谱的实体和关系,使其能够更全面地表达城市遗址类文物及其背后的历史和文化,从而更好地记录文物背后的历史故事,采用 roberta-bilstm-crf 模型作为主要框架,引入大语言模型提取事件推理信息和实体信息,并构建外部补充特征,相较于传统技术,更深入地挖掘事件元素之间的关联,降低了对人工设计规则的依赖,有力提高了事件抽取任务的准确性,为研究人员和公众提供更加直观和详尽的知识资源,具有重要的研究意义和使用价值。

    2、为实现上述目的,本发明提供了以下技术方案:

    3、本发明提供了一种融合事件抽取技术的城市遗址知识图谱构建方法,包括如下步骤:

    4、s1:收集并整理城市遗址考古发掘成果资料和历史文献,获取城市遗址文本数据,所述城市遗址文本数据包括遗址名称数据、年代数据、地理位置数据、构成数据、测绘记录数据、影像记录数据、考古发掘数据、出土文物数据、相关人物数据、相关事件数据;其中出土文物数据包括多个维度信息,各所述维度信息为包括:名称、年代、出土位置、描述、度量、材质、纹饰、影像记录;

    5、s2:文物和历史事件的种子词库构建;

    6、所述文物和历史事件的种子词库构建包括:

    7、s21:初始种子词库选取;参考现有的出土文物和考古发掘领域词库并进行人工筛选作为初始种子词库;

    8、s22:最终的文物和历史事件领域的种子词库构建;包括:对所述初始种子词库进行扩充,扩充完后,结合专家评估进行添加和修改,得到最终的文物和历史事件领域的种子词库;

    9、s3:命名实体识别;将城市遗址考古发掘成果资料和历史文献作为原始文本,针对城市遗址和历史事件相关的实体类型,实现命名实体识别,包括:出土文物名称、年代、材质、器型、人名、地名、组织,命名实体识别具体步骤包括:

    10、s31:预处理;对所述原始文本进行预处理;

    11、s32:对经过预处理后的原始文本进行标注,明确需要识别的实体类型,获得标注数据;

    12、s33:将经过预处理后的原始文本和经过标注后的文本作为输入至命名实体识别模型,标注数据作为结果,对模型进行训练,使用训练后的模型对未标注的出土文物描述进行处理,输出命名实体识别结果,完成对出土文物的命名实体识别;

    13、s4:采用大语言模型 llms 生成外部补充特征的事件抽取技术对经过所述步骤s3 命名实体识别后的原始文本进行事件信息抽取,并转化为结构化数据;事件抽取模型包括:roberta 语义表示模型、bilstm特征提取模型和crf分类模型,以 llms 提取事件推理信息和实体信息作为外部补充特征,利用llms 的推理和上下文理解能力,辅助 roberta-bilstm-crf模型实现事件抽取,具体包括:

    14、s41:借助 llms 提取事件推理信息和实体信息,构建外部补充特征,模型挖掘事件元素间显式和隐式的关联,提取事件推理信息,并构建事件推理特征,事件元素是命名实体,利用 llms 直接从句子中提取实体并构建实体特征;

    15、在事件推理信息提取过程中,以思维链为主,roberta- bilstm-crf模型在输出最终答案之前,显式地输出中间逐步的推理步骤,针对事件推理信息提取的提示符由事件 e、文档 m、事件元素r 三部分组成,将所述针对事件推理信息提取的提示符输入到大语言模型中,得到事件推理信息fr,事件推理信息 fr 包含了事件元素提取步骤、元素间关联分析和初步的元素提取结论;所述文档 m 为未经命名实体识别的原始文本;

    16、在实体特征提取过程中,设计实体特征提示符,所述实体特征提示符中包含文档中的一个句子 s, 将所述实体特征提示符输入大语言模型中,得到实体信息 fe;

    17、将所述事件推理信息 fr 和所述实体信息fe ,输入至roberta-bilstm-crf 模型进行编码,分别得到推理特征fr 和实体特征fe,为事件元素提取做准备;

    18、s42:对经过所述步骤 s3 命名实体识别后的原始文本进行特征提取,得到感知事件类型的词向量,关联事件类型和触发词检测任务。

    19、首先将所述步骤 s3 命名实体识别后的原始文本信息通过roberta-bilstm-crf模型得到对应的词向量作为整体模型的输入,计算注意力得分进行模型学习,对事件类型进行分类,得到事件类型词嵌入c;

    20、将所述事件类型词嵌入 c 作为关联数据,获得感知事件类型的文本词嵌入,具体计算公式为:

    21、;

    22、c 表示事件类型词嵌入, 表示词向量,μ和σ分别表示为的均值与方差,为可学习参数矩阵;

    23、s43:基于所述感知事件类型的文本词嵌入,完成事件类型与触发词检测,具体包括:

    24、第一步,将经过所述步骤 s3 命名实体识别后的原始文本输入roberta模型,然后由词信息、块信息、位置信息共同形成模型输入向量由中间层的transformer进行特征提取,输出如下表征事件类型的动态词向量h:

    25、;

    26、 表示词向量,r 为实数域,d 表示词向量空间的嵌入维度,取值为768,n 表示输入原始文本中含有的 tokens 数量,取值范围是1 到512;输出中含有模型在预训练阶段获得的先验语义知识,以解决语料不足造成的过拟合问题;

    27、第二步,由 bilstm 层对动态词向量 h 进行处理,捕捉词序列和上下文特征,bilstm 双向运作,通过将先行和后续信息都整合到每个词向量中,以增强对文本的理解能力,将输入的语句与事件空间中的每一个事件类型进行相似性度量,获取语句属于不同事件类型的概率,模型中使用随机初始化方式得到数据集中所有的事件类型词嵌入向量,其中|c|代表事件类型的数量,d 表示词向量空间的嵌入维度,表征事件类型的动态词向量h,模型设计相似性测量函数,衡量每个所述事件类型词嵌入c与输入文本中每个词向量的关联程度,得到每个词向量对不同的事件类型的权重矩阵,具体计算公式为:

    28、;

    29、上式中代表可训练的参数矩阵,[;]代表矩阵的连接操作,|•|表示计算绝对值,⊙代表矩阵的点乘计算,最终得到计算结果,表征输入文本词向量中每个位置对当前所述事件类型词嵌入c 的权重分布,对所述计算结果进行 softmax 函数,获得表征事件类型的词向量,具体计算公式为:

    30、;

    31、第三步,将所述表征事件类型的词向量与全部的事件类型空间进行相似度测量,并通过全连接层进行语句事件类型多分类,最终得到事件类型分类结果;使用自注意力机制对所述感知事件类型的文本词嵌入进行编码计算,得到事件触发词的词向量表征,以获取事件触发词的词向量表征,具体公式为:

    32、;

    33、使用一对二元的分类器,分别预测事件触发词的开始位置与结束位置,以每个开始位置最近邻的结束位置组合成为一组位置对,构成整个触发词,以识别语句中的触发词位置,具体计算公式为:

    34、;

    35、表示触发词位置开始以及结束标记,为计算触发词开始位置标记和结束位置标记的权重矩阵;表示第个token的感知事件类型的特征向量,为计算触发词开始位置和结束位置标记的偏置项;

    36、s44:事件元素抽取和元素角色识别,对原始文本中出现的所有元素角色进行统计,得到预定义的元素角色集合,将原始文本中的事件元素与元素角色信息映射成矩阵形式,矩阵行代表每类角色,矩阵列代表每类角色的位置标记,通过 roberta 对原始文本中的每个句子进行编码,得到句子特征fs,所述句子特征 fs 包含事件的直接特征,将所述事件推理特征fr 和所述实体特征fe与所述句子特征 fs 进行特征融合,让模型学习到文本的全局语义和事件元素之间的关联,得到融合特征 ms,最后使用 sigmoid 函数作为二元分类器,预测得到每类元素角色中元素的位置标记,具体计算公式为:;

    37、其中表示句子中第 k 个标记作为事件元素的起始位置和结束位置的概率,定义损失函数为如下:

    38、;

    39、其中分别表示模型预测的事件元素开始位置和结束标记,分别计算事件元素位置开始和结束标记的损失函数,总的损失函数为二者之和;

    40、s45:事件抽取结果整合和存储,将得到的事件类型、事件触发词和事件元素和元素角色组合成包含重叠信息的输出语句,组合成一条json 对象信息并存储;

    41、s5:构建知识图谱并进行可视化展示;

    42、将通过所述步骤 s3 命名实体识别过程获取的出土文物实体信息,以及通过所述步骤 s4 事件抽取技术获得的事件信息进行关系建模,构建城市遗址知识图谱,并进行可视化展示。

    43、可选地,所述 s1 收集并整理城市遗址考古发掘成果资料和历史文献,获取城市遗址文本数据的过程还包括数据扩充和数据清洗,数据扩充包括采取爬虫技术爬取百科数据,对所述城市遗址文本数据作进一步补充。

    44、可选地,所述 s2 中以细分领域词库为基础,所述细分领域词库关注出土文物名称、年代、材质、器型以及历史事件。

    45、可选地,所述 s31 预处理包括文本清洗和分词,第一步对文本进行清洗,去除无关字符和标点符号,第二步进行分词,将连续的文本字符串分割成独立的词或短语,对分割好的词和短语进行词性标注,对各所述词或短语分别分配一个词性标签,如动词、名词、形容词,为实体识别提供辅助信息,关于分词,使用 hanlp 分词工具进行分词,在分词前将所述步骤s2 构建好的所述文物和历史事件的种子词库输入至 hanlp 词典中,进行词库补充和完善,再将连续的文本字符串输入到 hanlp 中,分割成独立的词或短语。

    46、可选地,所述 s32 对经过预处理后的原始文本进行,明确需要识别的实体类型包括:采用 bioes 标注法对文本进行标注,明确需要识别的实体类型,获得标注数据,其中“b” 表示实体的开始字符,“i”表示实体的内部字符,“o”表示非实体字符,“e”表示实体的结束字符,“s”表示单字实体。

    47、可选地,所述 s5 中采用 neo4j bloom 工具进行可视化展示。

    48、本发明还提供了一种文物数据管理系统,该文物数据管理系统运行时应用上述融合事件抽取技术的城市遗址知识图谱构建方法,包括相互连接的出土文物数据管理模块、出土文物数据审核模块、出土文物图片搜索模块、出土文物图片标记模块和系统管理模块:

    49、所述出土文物数据管理模块,包含关键字搜索和结果导出、文物图片和详细描述展示、文物数据添加和修改、文物数据删除,以实现对文物进行关键字搜索和结果导出、文物图片和详细描述展示、文物数据添加和修改、文物数据删除四个子功能;

    50、所述出土文物数据审核模块,包含数据上传申请、数据查看申请、检索申请、管理员审批申请、删除申请,以实现对用户上传的文物数据,进行审核的功能,对文物数据进行管理,实现数据上传、查看和检索申请、管理员审批申请和删除申请的功能;

    51、所述出土文物图片搜索模块,包含以文搜图和以图搜图模式;

    52、所述出土文物图片标记模块,以实现对图片内容进行语义标注的功能,用户创建项目导入需要标注的图片集,对图片进行语义标注,文物数据管理系统提供多种标记模式,包括标签标记模式、识别框标记模式、封闭曲线标记模式;

    53、所述系统管理模块,系统管理模块仅限管理员访问,通过系统管理模块实现对文物数据管理系统的管理与维护,包括页面、账号、数据、日志、权限内容的管理与维护。

    54、本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述融合事件抽取技术的城市遗址知识图谱构建方法。

    55、总之,本发明提供一种融合事件抽取技术的城市遗址知识图谱构建方法,在 抽取 城 市 遗 址 出 土 文 物 实 体 基 础 上,结合事件抽取技术,采用roberta-bilstm-crf 模型作为主要框架,引入大语言模型提取事件推理信息和实体信息,并构建外部补充特征,相较于传统技术,更深入地挖掘事件元素之间的关联,降低了对人工设计规则的依赖,有力提高了事件抽取任务的准确性。通过上述模型识别考古成果和文献中的过程性知识,整理出遗址相关的历史事件,有助于丰富文物知识图谱的内容,增加知识图谱的实体和关系,使其能够更全面地表达城市遗址类文物及其背后的历史和文化,具有重要的研究意义和使用价值。

    56、优选地,步骤 s31 预处理包括文本清洗和分词,第一步对文本进行清洗,去除无关字符和标点符号,第二步进行分词,将连续的文本字符串分割成独立的词或短语,对分割好的词和短语进行词性标注,对各所述词或短语分别分配一个词性标签,如动词、名词、形容词,为实体识别提供辅助信息,关于分词,使用 hanlp 分词工具进行分词,在分词前将所述步骤s2 构建好的所述文物和 历史事件的种子词库输入至 hanlp 词典中,进行词库补充和完善,再将连续的文本字符串输入到 hanlp 中,分割成独立的词或短语,该方法的引入,能够为后续的实体识别提供辅助信息,能够使得处理结果的语义更清晰,处理速度更快。

    57、优选地,由 bilstm 层对动态词向量 h 进行处理,捕捉词序列和上下文特征,模型中使用随机初始化方式得到数据集中所有的事件类型词嵌入向量,其中|c|代表事件类型的数量,d 表示词向量空间的嵌入维度,表征事件类型的动态词向量 h,模型设计相似性测量函数衡量每个所述事件类型词嵌入 c 与输入文本中每个词向量的关联程度,得到每个词向量对不同的事件类型的权重矩阵,如此可见,bilstm 双向运作,通过将先行和后续信息都整合到每个词向量中,以增强对文本的理解能力,将输入的语句与事件空间中的每一个事件类型进行相似性度量,获取语句属于不同事件类型的概率。


    技术特征:

    1.一种融合事件抽取技术的城市遗址知识图谱构建方法,其特征在于,包括如下步骤:

    2.根据权利要求 1 所述的融合事件抽取技术的城市遗址知识图谱构建方法,其特征在于,所述 s1 收集并整理城市遗址考古发掘成果资料和历史文献,获取城市遗址文本数据的过程还包括数据扩充和数据清洗,数据扩充包括采取爬虫技术爬取百科数据,对所述城市遗址文本数据作进一步补充。

    3.根据权利要求 1 所述的融合事件抽取技术的城市遗址知识图谱构建方法,其特征在于,所述 s2 中以细分领域词库为基础,所述细分领域词库关注出土文物名称、年代、材质、器型以及历史事件。

    4.根据权利要求 1 所述的融合事件抽取技术的城市遗址知识图谱构建方法,其特征在于,所述 s31 预处理包括文本清洗和分词,第一步对文本进行清洗,去除无关字符和标点符号,第二步进行分词,将连续的文本字符串分割成独立的词或短语,对分割好的词和短语进行词性标注,对各所述词或短语分别分配一个词性标签,如动词、名词、形容词,为实体识别提供辅助信息,关于分词,使用 hanlp 分词工具进行分词,在分词前将所述步骤s2 构建好的所述文物和历史事件的种子词库输入至 hanlp 词典中,进行词库补充和完善,再将连续的文本字符串输入到 hanlp 中,分割成独立的词或短语。

    5.根据权利要求 1 所述的融合事件抽取技术的城市遗址知识图谱构建方法,其特征在于,所述 s32 对经过预处理后的原始文本进行,明确需要识别的实体类型包括:采用bioes 标注法对文本进行标注,明确需要识别的实体类型,获得标注数据,其中“b” 表示实体的开始字符,“i”表示实体的内部字符,“o”表示非实体字符,“e”表示实体的结束字符,“s”表示单字实体。

    6.根据权利要求 1 所述的融合事件抽取技术的城市遗址知识图谱构建方法,其特征在于,所述 s5 中采用 neo4j bloom 工具进行可视化展示。

    7.一种文物数据管理系统,其特征在于,该文物数据管理系统运行时应用权利要求 1-6 任一项所述融合事件抽取技术的城市遗址知识图谱构建方法,包括相互连接的出土文物数据管理模块(1)、出土文物数据审核模块(2)、出土文物图片搜索模块(3)、出土文物图片标记模块(4)和系统管理模块(5):

    8.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,该程序被处理器执行时实现权利要求 1-6 任一项所述融合事件抽取技术的城市遗址知识图谱构建方法。


    技术总结
    本发明提供了一种融合事件抽取技术的城市遗址知识图谱构建方法,包括:S1:收集并整理城市遗址考古发掘成果资料和历史文献,获取城市遗址文本数据,S2:文物和历史事件的种子词库构建;S3:命名实体识别;S4:采用大语言模型LLMs生成外部补充特征的事件抽取技术对经过命名实体识别后的原始文本进行事件信息抽取,并转化为结构化数据;S5:构建知识图谱并进行可视化展示,还发明了一种文物数据管理系统和计算机可读存储介质,采用RoBERTa‑BiLSTM‑CRF模型作为主要框架,引入大语言模型提取事件推理信息和实体信息,并构建外部补充特征,更深入地挖掘事件元素之间的关联,提高了事件抽取任务的准确性。

    技术研发人员:王如梅,纪有,陈锦峰,万静,李哲
    受保护的技术使用者:北京市科学技术研究院
    技术研发日:
    技术公布日:2024/11/26
    转载请注明原文地址:https://tc.8miu.com/read-28310.html

    最新回复(0)