基于深度序列匹配网络的电力数据短文本实体链接方法与流程

    专利查询2026-01-19  4


    本发明属于电力通信网业务数据清洗校核,涉及一种电力业务数据短文本实体链接方法,尤其是一种基于深度序列匹配网络的电力数据短文本实体链接方法。


    背景技术:

    1、电力通信网是以电力系统为主要服务对象的专用通信网,是用各种通信手段和一定的方式,将终端设备、传输系统、交换系统等连接起来的通信整体,其涵盖的电力通信管理台帐以及网管业务数据包含通信网光缆资源数据、光传输系统使用纤芯数据、承载电路数据、安控业务通道数据、继电保护业务通道数据、交换网通道数据、调度数据网通道数据等。各类业务数据由于来源各异,各地业务人员对通信网中的站点、设备、光缆等业务实体的数据格式不统一、命名规则不统一,网络拓扑描述规则各异,且通道数据中存在较多冗余信息,给数据的结构化提炼、网络拓扑图的构建带来了极大的难度,需要耗费业务人员大量时间人工对业务数据进行站点匹配、去冗余等清洗工作。

    2、因此,本发明提出一种基于深度序列匹配网络(dsmn)的电力业务数据短文本实体链接方法。

    3、经检索,未发现与本发明相同或相似的现有技术的公开文献。


    技术实现思路

    1、本发明的目的在于克服现有技术的不足,提出一种基于深度序列匹配网络(dsmn)的电力业务数据短文本实体链接方法,综合考虑实体指代项和候选实体间的内容和结构相似性,针对多源异构知识库实现高质量的消歧,支撑有效开展面向电力通信管理台帐以及网管数据的清洗校核工作。

    2、本发明解决其现实问题是采取以下技术方案实现的:

    3、一种基于深度序列匹配网络的电力数据短文本实体链接方法,包括以下步骤:

    4、步骤1、将文本通过多粒度词嵌入生成对应的词向量;

    5、步骤2、将步骤1获得的词向量通过词-实体指代项深度序列匹配层,形成词-实体指代项对,再通过候选实体和词-实体指代项对深度序列匹配层,形成词、实体指代项和候选实体三者的深度匹配矩阵;

    6、步骤3、将步骤2的深度序列匹配矩阵,在卷积池化层通过卷积池化操作提取文本中包含的匹配信息,并将其编码得到匹配向量;

    7、步骤4、将步骤3获得的匹配向量作为积累层的输入,通过gru单元序列累加得到的多个匹配向量和输出隐藏向量;

    8、步骤5、将步骤4得到的输出隐藏向量,输入最后的预测层进行动态平均预测,动态计算最终的匹配得分;

    9、步骤6、根据步骤5的匹配得分进行候选实体配对,进而完成电力业务数据短文本的实体链接。

    10、而且,所述步骤1的具体步骤包括:

    11、(1)选定数据集,四个数据集分别为:ntf,nlpcc,hqa和cndl。

    12、设定数据集格式为

    13、其中代表一段文本包含个词,mi表示文本中的实体指代项,ci表示第i个候选实体,yi∈{0,1}表示输出标签,当yi=1代表候选实体ci是和实体si意义最相近的候选实体,当yi=0则反之。

    14、(2)假设文本s中包含若干个词w,则w的字符级向量表示为词级向量表示为句子级向量表示为

    15、(3)通过将这三个粒度的词向量串联起来,可以获得最终的词向量表示形式:

    16、

    17、其中表示串联操作;

    18、(4)文本中的词、实体指代项和候选实体都是通过相同的向量化操作得到对应的词向量;文本中的词w、实体指代项m和候选实体c的词向量表示分别采用如下形式:w=ew,m=em和c=ec,并且ew,em,ec∈rd,d表示词向量的维数,通过上述操作,得到了多粒度词嵌入表示{vt}。

    19、(5)随后通过一个gru单元进一步整合编码,并获得记录重要语义的隐藏单元{ht}:

    20、zt=σ(wzvt+uzht-1)

    21、rt=σ(wrvt+urht-1)

    22、

    23、其中zi和ri分别为更新门和重置门,σ(·)表示sigmoid函数,wz、wr、wh、uz、ur、uh是参数,ew、ec、em分别来自hw,t、hc,t、hm,t的隐藏向量。

    24、而且,所述步骤2的具体方法为:

    25、构建深度序列匹配相似度矩阵mf∈rd×d(f=1,2),分两步开展,首先进行词和实体指代项之间的深度序列匹配,m1表示w和m之间的相似度,然后进行候选实体和词-实体指代项对之间的深度序列匹配,m2表示c和m1之间的相似度;

    26、其中,d维的m1,m2矩阵定义如下:

    27、

    28、而且,所述步骤3的具体方法为:

    29、将步骤2的深度序列匹配矩阵,通过卷积池化层来提取匹配信息并编码成一个匹配向量v:

    30、z(l,f)表示第l层的f类型输出端口的特征映射,其中z(0,f)=mf。第三层,首先进行卷积操作,采用窗口大小并定义z(l,f):

    31、

    32、其中σ(·)是relu函数,w(l,f)和bl为参数,fl-1表示第(l-1)层特征数。然后进行池化操作,使用和作为池化操作的宽度和高度,公式如下:

    33、

    34、上层输出的匹配向量被映射到低维空间中去,得到匹配向量[v1,...,vn]。

    35、而且,所述步骤4的具体方法为:

    36、将步骤3获得的匹配向量作为积累层的输入,通过一个gru单元,得到输出隐藏向量[h1′,...,hn′]。

    37、在本实施例中,积累层有三个功能,首先累加深度序列匹配得到的信息,然后提取文本中序列词组的依赖性关系,最后过滤噪音信息保留重要数据。

    38、而且,所述步骤5的具体步骤包括:

    39、(1)输出隐藏向量[h1′,...,hn′]作为预测层的输入,定义匹配得分g(s,m,c);

    40、(2)匹配预测方法采用了注意力机制来动态计算匹配得分;

    41、计算g(s,m,c)公式如下:

    42、

    43、其中wd1、wd2、wd、bd1、bd2是参数,ts是在训练中习得的虚拟文本向量,hi是[h1′,...,hn′]的第i个隐藏状态,是词w的最终隐藏状态。

    44、(3)采用交叉熵损失函数来取得更优化的g(s,m,c)函数,定义如下:

    45、

    46、而且,所述步骤6的具体方法为:

    47、在实体链接任务中,从候选实体列表中为文本中实体指代项选择一个正确的实体进行链接;从实体知识库中检索候选实体列表,并使用词匹配方法生成候选实体;每次在dsmn模型中输入一个候选实体时,都会输出一个候选实体和实体指代项的匹配分值,因此候选实体列表中的每个候选者都有一个对应的匹配分数,最终选择具有最高分值的候选实体作为实体指代项的正确实体,完成实体连接。

    48、本发明的优点和有益效果:

    49、本发明提出一种基于深度序列匹配网络(dsmn)的电力业务数据短文本实体链接方法,综合考虑实体指代项和候选实体间的内容和结构相似性,针对多源异构知识库实现高质量的消歧,支撑有效开展面向电力通信管理台帐以及网管数据的清洗校核工作。dsmn首先从多粒度对词进行全方位向量化表示,然后将实体指代项和句子中的每个词进行序列匹配,随后分别将候选实体与上层匹配结果进行序列匹配,再通过卷积池化层提炼重要的匹配信息,最终通过动态平均算法计算实体指代项和候选实体之间的相似度。实验结果表明,dsmn在多个数据集上都展示了优异的实体链接能力。


    技术特征:

    1.一种基于深度序列匹配网络的电力数据短文本实体链接方法,其特征在于:包括以下步骤:

    2.根据权利要求1所述的一种基于深度序列匹配网络的电力数据短文本实体链接方法,其特征在于:所述步骤1的具体步骤包括:

    3.根据权利要求1所述的一种基于深度序列匹配网络的电力数据短文本实体链接方法,其特征在于:所述步骤2的具体方法为:

    4.根据权利要求1所述的一种基于深度序列匹配网络的电力数据短文本实体链接方法,其特征在于:所述步骤3的具体方法为:

    5.根据权利要求1所述的一种基于深度序列匹配网络的电力数据短文本实体链接方法,其特征在于:所述步骤4的具体方法为:

    6.根据权利要求1所述的一种基于深度序列匹配网络的电力数据短文本实体链接方法,其特征在于:所述步骤5的具体步骤包括:

    7.根据权利要求1所述的一种基于深度序列匹配网络的电力数据短文本实体链接方法,其特征在于:所述步骤6的具体方法为:


    技术总结
    本发明涉及一种基于深度序列匹配网络的电力数据短文本实体链接方法,包括以下步骤:步骤1、将文本通过多粒度词嵌入生成对应的词向量;步骤2、形成词、实体指代项和候选实体三者的深度匹配矩阵;步骤3、编码得到匹配向量;步骤4、通过GRU单元序列累加得到的多个匹配向量和输出隐藏向量;步骤5、输入最后的预测层进行动态平均预测,动态计算最终的匹配得分;步骤6、完成电力业务数据短文本的实体链接。本发明综合考虑实体指代项和候选实体间的内容和结构相似性,针对多源异构知识库实现高质量的消歧。

    技术研发人员:卢志鑫,付连宇,尹喜阳,王强,冯春盛,徐燕楠,张志强
    受保护的技术使用者:国网天津市电力公司
    技术研发日:
    技术公布日:2024/11/26
    转载请注明原文地址:https://tc.8miu.com/read-33467.html

    最新回复(0)