一种基于注意力上下文映射和关系匹配的网络威胁情报关系抽取方法

    专利查询2025-04-20  14


    本技术涉及网络安全,且更为具体地,涉及一种基于注意力上下文映射和关系匹配的网络威胁情报关系抽取方法。


    背景技术:

    1、随着网络空间的复杂度越来越高,钓鱼、欺骗、勒索等网络攻击也随之日益增多,且呈现复杂化和多样化的趋势。这对国家和企业的网络空间安全构成了极大地威胁。这些网络空间往往涉及大量的隐私数据甚至国家机密,一旦遭到恶意入侵,且系统无法及时应对,后果将不堪设想。而现有的网络空间防御技术可以分为两部分:1)利用入侵检测技术,当系统检测到网络攻击事件时,及时做出防御来应对攻击。2)根据历史攻击记录,开发和部署新的安全解决方案。然而,攻击者总是会尝试新的攻击技术、攻击策略和恶意软件等,所以导致无法及时更新相关防御策略。

    2、而知识图谱因其结构化的存储方式、高效的搜索能力以及简单清楚的可视化形式,使得它非常适合于网络攻击的追踪溯源和潜在威胁挖掘。同时随着大数据技术的爆发,通过挖掘海量的网络威胁情报数据中的威胁信息并构建网络威胁情报知识图谱可作为一种新的网络空间安全解决方案。然而网络威胁情报都是呈现非结构化数据的形式,无法直接存储为知识图谱。所以需要通过命名实体识别、关系抽取、实体消歧等自然语言处理技术将海量网络威胁情报数据从非结构化形式转换成结构化的形式。其中的关系抽取是数据转换的关键步骤。

    3、网络威胁情报关系抽取又叫做关系分类。主要过程就是对两个已知的实体,识别和确定它们之间的关系。主要任务就是通过深度挖掘和分析实体信息以及实体所在上下文信息,来抽取关系。最终将分类好的关系三元组进行存储。

    4、网络威胁情报关系抽取技术相较于通用领域内的关系抽取技术,由于关注的实体和关系形式不同,存在以下难点:(a)网络威胁情报实体词更加复杂,语义上更加抽象。(b)网络威胁情报中通常单句实体密度较大,实体特征容易混淆,需深度挖掘细粒度的特征。(c)网络威胁情报实体对之间容易出现间接关联,导致实体之间相关性弱而无法准确判断关系类别。

    5、因此,期望一种基于注意力上下文映射和关系匹配的网络威胁情报关系抽取方法。


    技术实现思路

    1、针对以上问题,本发明提出一种基于注意力上下文映射和关系匹配的网络威胁情报关系抽取方法。该模型基于深度神经网络,采用如下技术方案:(a)使用大规模通用文本数据预训练过的bert模型对输入文本进行向量编码,得到初步的文本向量表示。通过大规模通用文本数据预训练过的bert模型,已经获取到了文本的一些潜在语义信息,所以将其对威胁情报文本进行编码得到的向量表示已经包含了丰富的通用先验知识和潜在语义。(b)通过基于注意力的上下文映射方法,缓解了实体语义抽象和实体特征易混淆的问题。(c)通过关系匹配机制来缓解实体之间相关性弱的问题。

    2、相应地,根据本技术的一个方面,提供了一种基于注意力上下文映射和关系匹配的网络威胁情报关系抽取方法,其包括:

    3、构建网络威胁情报关系抽取模型的编码层;

    4、构建网络威胁情报关系抽取模型的基于注意力的上下文映射层;

    5、构建网络威胁情报关系抽取模型的关系匹配层;

    6、使用hacker数据集训练模型;

    7、将海量网络威胁情报输入模型。

    8、在上述基于注意力上下文映射和关系匹配的网络威胁情报关系抽取方法中,构建网络威胁情报关系抽取模型的编码层,包括:

    9、给定一个句子seq作为输入;

    10、将句子seq中的每个单词进一步分解成一系列更精细的分词单元,得到分词集序列表示e={e1,e2,…,en},其中ei表示每个分词的编号,n表示句子的分词长度;

    11、利用bert模型对其进行编码,获得一个新的句子表示序列其中ds表示si的维度,公式如下:

    12、s=bert(e)={s1,s2,…,sn}。

    13、在上述基于注意力上下文映射和关系匹配的网络威胁情报关系抽取方法中,构建网络威胁情报关系抽取模型的基于注意力的上下文映射层,包括:利用预训练的bert模型对实体和关系标签进行深度编码,以获取富含语义信息的实体标签词嵌入矩阵pe和关系标签词嵌入矩阵pr;以需要识别关系的实体对为整体融合潜在的实体关联信息,增强实体对之间的差异性表示,得到一个新的实体对表示序列ef';将所述关系标签词嵌入矩阵pr与上下文特征向量ct结合得到一个新的关系上下文特征矩阵cr';利用注意力机制将所述实体对表示序列ef'与所述关系上下文特征矩阵cr'结合得到特定于实体对的关系上下文增强序列表示cp。

    14、在上述基于注意力上下文映射和关系匹配的网络威胁情报关系抽取方法中,利用预训练的bert模型对实体和关系标签进行深度编码,以获取富含语义信息的实体标签词嵌入矩阵pe和关系标签词嵌入矩阵pr,用于:获取实体和关系类型词嵌入,将实体标签集el和关系标签集rl输入预训练的bert模型中进行语义编码,得到实体所述标签词嵌入矩阵和所述关系标签词嵌入矩阵公式如下:

    15、pe=bert(el)={pe1,pe2,...,pez}

    16、pr=bert(rl)={pr1,pr2,...,prr}

    17、其中,de为实体类型标签词嵌入维度,z代表实体类型标签词的数量,dr为关系类型标签词嵌入维度,r为关系类型标签词的个数。

    18、在上述基于注意力上下文映射和关系匹配的网络威胁情报关系抽取方法中,以需要识别关系的实体对为整体融合潜在的实体关联信息,增强实体对之间的差异性表示,得到一个新的实体对表示序列ef',用于:通过随机初始化方法生成初始的头实体跨度尺寸嵌入向量s_h和尾实体跨度尺寸嵌入向量s_t,在多层感知机的多层非线性变换过程中,跨度尺寸信息得以与原始的跨度表示进行深度融合,从而为两个实体生成一个既包含原始文本信息又富含尺寸特征信息的增强型实体表示,其中头实体表示为eh,尾实体表示为et,公式如下:

    19、eh=[sh;s_h]·wh+bh

    20、eh'=tanh(eh)

    21、et=[st;s_t]·wt+bt

    22、et'=tanh(et)

    23、其中,和为可学习参数,dse为跨度尺寸嵌入的维度,[;]代表向量连接操作,tanh代表双曲正切激活函数,sh为上一层得到的头实体编码向量,st为上一层得到的尾实体编码向量;

    24、将实体对视为一个不可分割的整体单元,通过引入多层感知机作为融合机制,对所述头实体和所述尾实体的序列表示进行深度整合,以捕捉它们之间的相互作用与依赖关系,从而生成第一实体标签对序列ep';对头实体标签编码向量与尾实体标签编码向量进行融合处理,生成第二实体标签对序列elp';采用第三个多层感知机对实体对序列表示ep'与实体标签对序列表示elp'进行融合生成一个既包含序列信息又富含语义知识的实体标签对增强的实体对序列es';对两个实体之间的间距进行随机初始化,得到嵌入序列epe;通过第四个多层感知机,将两个实体的间距信息融合进所述实体标签对增强的实体对序列es'中,以生成最终的实体对表示序列ef';公式如下:

    25、ep=[eh;et]·wht+bht

    26、ep'=tanh(ep)

    27、elp=[peh;pet]·wpl+bpl

    28、elp'=tnnh(elp

    29、es=[ep';elp']·wel+bel

    30、es'=tanh(es)

    31、ef=[es';epe]·wef+bef

    32、ef'=tanh(ef

    33、其中,和为可学习参数,dpe为实体对间距嵌入的维度,peh为头实体标签编码向量,pet为尾实体标签编码向量。

    34、在上述基于注意力上下文映射和关系匹配的网络威胁情报关系抽取方法中,将所述关系标签词嵌入矩阵pr与所述上下文特征向量ct结合得到一个新的关系上下文特征矩阵cr',用于:将所有的所述关系标签词嵌入矩阵分别与所述上下文特征向量相结合,通过多层感知机的多层非线性变换,实现两者之间的信息交互与融合,生成特定于关系的上下文表示矩阵cr',公式如下:

    35、cr=[ct;pr]·wcr+bcr

    36、cr'=tanh(cr)

    37、其中,和为可学习参数。

    38、在上述基于注意力上下文映射和关系匹配的网络威胁情报关系抽取方法中,利用注意力机制将所述实体对表示序列ef'与所述关系上下文特征矩阵cr'结合得到特定于实体对的关系上下文增强序列表示cp,用于:通过计算注意力权重来衡量每个上下文元素对于当前实体对关系识别的重要性,并据此对基于关系的上下文序列表示进行加权调整,经过注意力机制的增强,得到特定于实体对的关系上下文增强序列表示cp,公式如下:

    39、

    40、cp=score·cr'

    41、其中,和为可学习参数,softmax代表softmax激活函数。

    42、在上述基于注意力上下文映射和关系匹配的网络威胁情报关系抽取方法中,构建网络威胁情报关系抽取模型的关系匹配层,包括:

    43、对所述关系标签词嵌入矩阵pr和所述特定于实体对的关系上下文增强序列表示cp进行余弦相似度计算得到相似分数公式如下:

    44、

    45、其中,||||代表向量的二范数,i表示第i个关系标签;

    46、对所述关系标签词嵌入矩阵pr和实体对序列表示ep'进行余弦相似度计算得到相似分数公式如下:

    47、

    48、其中,j表示第j个关系标签

    49、将相似分数和相似分数进行自适应加权融合得到最终的关系分类分数sc',最后将分类分数最大的关系进行输出,公式如下:

    50、

    51、sc'=softmax(sc

    52、其中,α为可训练的自适应融合参数。

    53、在上述基于注意力上下文映射和关系匹配的网络威胁情报关系抽取方法中,使用hacker数据集训练模型,用于:将hacker数据集输入至网络威胁情报关系抽取模型进行50次迭代训练,选取最佳效果时的参数设定,得到最佳网络威胁情报关系抽取模型,选取label smoothing loss损失函数作为训练时所用的损失函数,公式如下:

    54、

    55、其中,l为损失函数,为第i个类别平滑处理之后的标签分布,ε为平滑参数(较小的常数),y为真实类别的标签,sci为模型预测到的第i个类别的概率。

    56、在上述基于注意力上下文映射和关系匹配的网络威胁情报关系抽取方法中,将海量网络威胁情报输入模型,用于:将海量网络威胁情报以句子为单位进行划分,并在完成实体提取之后,输入网络威胁情报关系抽取模型以得到最终的关系三元组。

    57、与现有技术相比,本发明提出一种基于注意力上下文映射和关系匹配的网络威胁情报关系抽取模型。该模型针对网络威胁情报领域关系抽取技术现存难点而设计。通过深度挖掘实体潜在信息,增强实体与周围文本环境之间的交互,缓解了实体词复杂,语义抽象的问题。使用基于注意力的上下文映射机制,直接将实体对看成一个整体与上下文信息进行交互,缓解了单句实体密度较大,实体特征易混淆的问题。使用关系匹配机制,将关系标签信息与上下文信息和实体对信息进行融合和互动,同时通过协同处理关系分类来提高分类准确率,缓解了实体对之间容易出现间接关联,导致实体之间相关性弱而无法准确判断关系类别的问题。在网络威胁情报领域,相较于传统基于神经网络的关系抽取模型,本发明的识别效果具有显著优越性。


    技术特征:

    1.一种基于注意力上下文映射和关系匹配的网络威胁情报关系抽取方法,其特征在于,包括:

    2.根据权利要求1所述的一种基于注意力上下文映射和关系匹配的网络威胁情报关系抽取方法,其特征在于,构建网络威胁情报关系抽取模型的编码层,包括:

    3.根据权利要求2所述的一种基于注意力上下文映射和关系匹配的网络威胁情报关系抽取方法,其特征在于,构建网络威胁情报关系抽取模型的基于注意力的上下文映射层,包括:

    4.根据权利要求3所述的一种基于注意力上下文映射和关系匹配的网络威胁情报关系抽取方法,其特征在于,利用预训练的bert模型对实体和关系标签进行深度编码,以获取富含语义信息的实体标签词嵌入矩阵pe和关系标签词嵌入矩阵pr,用于:获取实体和关系类型词嵌入,将实体标签集el和关系标签集rl输入预训练的bert模型中进行语义编码,得到所述实体标签词嵌入矩阵和所述关系标签词嵌入矩阵公式如下:

    5.根据权利要求4所述的一种基于注意力上下文映射和关系匹配的网络威胁情报关系抽取方法,其特征在于,以需要识别关系的实体对为整体融合潜在的实体关联信息,增强实体对之间的差异性表示,得到一个新的实体对表示序列ef′,用于:通过随机初始化方法生成初始的头实体跨度尺寸嵌入向量s_h和尾实体跨度尺寸嵌入向量s_t,在多层感知机的多层非线性变换过程中,跨度尺寸信息得以与原始的跨度表示进行深度融合,从而为两个实体生成一个既包含原始文本信息又富含尺寸特征信息的增强型实体表示,其中头实体表示为eh,尾实体表示为et,公式如下:

    6.根据权利要求5所述的一种基于注意力上下文映射和关系匹配的网络威胁情报关系抽取方法,其特征在于,将所述关系标签词嵌入矩阵pr与上下文特征向量ct结合得到一个新的关系上下文特征矩阵cr',用于:将所有的关系标签词嵌入矩阵分别与所述上下文特征向量相结合,通过多层感知机的多层非线性变换,实现两者之间的信息交互与融合,生成特定于关系的上下文表示矩阵cr′,公式如下:

    7.根据权利要求6所述的一种基于注意力上下文映射和关系匹配的网络威胁情报关系抽取方法,其特征在于,利用注意力机制将所述实体对表示序列ef′与所述关系上下文特征矩阵cr′结合得到特定于实体对的关系上下文增强序列表示cp,用于:通过计算注意力权重来衡量每个上下文元素对于当前实体对关系识别的重要性,并据此对基于关系的上下文序列表示进行加权调整,经过注意力机制的增强,得到特定于实体对的关系上下文增强序列表示cp,公式如下:

    8.根据权利要求7所述的一种基于注意力上下文映射和关系匹配的网络威胁情报关系抽取方法,其特征在于,构建网络威胁情报关系抽取模型的关系匹配层,包括:

    9.根据权利要求8所述的一种基于注意力上下文映射和关系匹配的网络威胁情报关系抽取方法,其特征在于,使用hacker数据集训练模型,用于:将hacker数据集输入至网络威胁情报关系抽取模型进行50次迭代训练,选取最佳效果时的参数设定,得到最佳网络威胁情报关系抽取模型,选取labelsmoothing loss损失函数作为训练时所用的损失函数,公式如下:

    10.根据权利要求9所述的一种基于注意力上下文映射和关系匹配的网络威胁情报关系抽取方法,其特征在于,将海量网络威胁情报输入模型,用于:将海量网络威胁情报以句子为单位进行划分,并在完成实体提取之后,输入网络威胁情报关系抽取模型以得到最终的关系三元组。


    技术总结
    本发明提出一种基于注意力上下文映射和关系匹配的网络威胁情报关系抽取方法,该方法基于深度神经网络,采用如下技术方案:(a)使用大规模通用文本数据预训练过的BERT模型对输入文本进行向量编码,得到初步的文本向量表示。通过大规模通用文本数据预训练过的BERT模型,已经获取到了文本的一些潜在语义信息,所以将其对威胁情报文本进行编码得到的向量表示已经包含了丰富的通用先验知识和潜在语义。(b)通过基于注意力的上下文映射方法,缓解了实体语义抽象和实体特征易混淆的问题。(c)通过关系匹配机制来缓解实体之间相关性弱的问题。

    技术研发人员:尚文利,王博文,周正,时昊天,李淑琦,高晓斌,常志伟
    受保护的技术使用者:广州大学
    技术研发日:
    技术公布日:2024/11/26
    转载请注明原文地址:https://tc.8miu.com/read-27728.html

    最新回复(0)