1.本公开涉及信息管理技术领域,尤其涉及一种突发事件的监测方法、装置、电子设备及存储介质。
背景技术:
2.随着互联网技术的发展,越来越多的用户会在互联网络上发布各种各样的信息。其中,也包括突发事件,比如,传染病、台风、洪水、爆炸、核事故等。突发事件的应急管理人员可以通过网络上的信息及时了解突发事件的情况。但是,从海量的网络信息中及时、准确地挖掘突发事件的相关信息并非易事。因此,如何从大量的网络信息中获取突发事件的相关信息成为重点的研究方向。
技术实现要素:
3.本公开旨在至少在一定程度上解决相关技术中的技术问题之一。
4.本公开第一方面实施例提出了一种突发事件的监测方法,包括:
5.基于词库中包含的参考词,对网络信息进行遍历,以从中提取包含所述参考词的候选文本;
6.对所述候选文本进行语义分析,以确定所述候选文本中包含的与突发事件关联的关联文本;
7.对所述关联文本进行实体提取,以确定所述关联文本对应的第一实体集;
8.确定所述第一实体集与突发事件数据集中每个突发事件对应的第二实体集之间的第一相似度;
9.在所述第一实体集与任一第二实体集间的第一相似度大于第一阈值的情况下,确定所述关联文本为所述任一第二实体集对应的第一突发事件的关联文本。
10.本公开第二方面实施例提出了一种突发事件的监测装置,包括:
11.第一获取模块,用于基于词库中包含的参考词,对网络信息进行遍历,以从中提取包含所述参考词的候选文本;
12.第一确定模块,用于对所述候选文本进行语义分析,以确定所述候选文本中包含的与突发事件关联的关联文本;
13.第二确定模块,用于对所述关联文本进行实体提取,以确定所述关联文本对应的第一实体集;
14.第三确定模块,用于确定所述第一实体集与突发事件数据集中每个突发事件对应的第二实体集之间的第一相似度;
15.第四确定模块,用于在所述第一实体集与任一第二实体集间的第一相似度大于第一阈值的情况下,确定所述关联文本为所述任一第二实体集对应的第一突发事件的关联文本。
16.本公开第三方面实施例提出了一种电子设备,包括:存储器、处理器及存储在存储
器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如本公开第一方面实施例提出的突发事件的监测方法。
17.本公开第四方面实施例提出了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,实现如本公开第一方面实施例提出的突发事件的监测方法。
18.本公开第五方面实施例提出了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时,实现如本公开第一方面实施例提出的突发事件的监测方法。
19.本公开提供的突发事件的监测方法、装置、电子设备及存储介质,存在如下有益效果:
20.本公开实施例中,首先基于词库中包含的参考词,对网络信息进行遍历,以从中提取包含参考词的候选文本,之后对候选文本进行语义分析,以确定候选文本中包含的与突发事件关联的关联文本,再对关联文本进行实体提取,以确定关联文本对应的第一实体集,之后确定第一实体集与突发事件数据集中每个突发事件对应的第二实体集之间的第一相似度,最后在第一实体集与任一第二实体集间的第一相似度大于第一阈值的情况下,确定关联文本为任一第二实体集对应的第一突发事件的关联文本。由此,将网络信息中包含的突发事件文本进行分析、整理,不仅可以从海量的网络信息中及时准确地挖掘突发事件的相关信息,而且可以将描述同一突发事件的文本进行聚类,从而可以及时地发现新的突发事件。
21.本公开附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本公开的实践了解到。
附图说明
22.本公开上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
23.图1为本公开一实施例所提供的一种突发事件的监测方法的流程示意图;
24.图2为本公开另一实施例所提供的一种突发事件的监测方法的流程示意图;
25.图3为本公开一实施例所提供的一种对候选文本进行语义分析的示意图;
26.图4为本公开另一实施例所提供的一种突发事件的监测方法的流程示意图;
27.图5为本公开另一实施例所提供的一种突发事件的监测方法的流程示意图;
28.图6为本公开一实施例所提供的一种突发事件的监测装置的结构示意图;
29.图7示出了适于用来实现本公开实施方式的示例性电子设备的框图。
具体实施方式
30.下面详细描述本公开的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本公开,而不能理解为对本公开的限制。
31.下面参考附图描述本公开实施例的突发事件的监测方法、装置、电子设备和存储介质。
32.图1为本公开实施例所提供的一种突发事件的监测方法的流程示意图。
33.本公开实施例以该突发事件的监测方法被配置于突发事件的监测装置中来举例说明,该突发事件的监测装置可以应用于任一电子设备中,以使该电子设备可以执行突发事件的监测功能。
34.其中,电子设备可以为个人电脑(personal computer,简称pc)、云端设备、移动设备等,移动设备例如可以为手机、平板电脑、个人数字助理、穿戴式设备、车载设备等具有各种操作系统、触摸屏和/或显示屏的硬件设备。
35.如图1所示,该突发事件的监测方法可以包括以下步骤:
36.步骤101,基于词库中包含的参考词,对网络信息进行遍历,以从中提取包含参考词的候选文本。
37.可选的,词库中可以包含每种类型突发事件对应的参考词,词库中包含的参考词可以为预先确定的。
38.其中,突发事件可以包括自然灾害、事故灾难、公共卫生事件和社会安全事件等。比如自然灾害还可以包括:暴雨、龙卷风、地震等;事故灾难可以包括:车祸、火灾等;公共卫生事件可以包括传染病、食物中毒等;社会安全事件可以包括:恐怖袭击事件、大型聚众事件等。
39.可以理解的是,每种类型的参考事件都有其对应的参考词。比如,暴雨事件通常会伴随大风,因此,大风可以为暴雨事件对应的参考词。从网络信息中提取的包含“大风”的候选文本,可以为“今天某地区发布了大风黄色预警”。
40.步骤102,对候选文本进行语义分析,以确定候选文本中包含的与突发事件关联的关联文本。
41.需要说明的是,突发事件是指不经常发生的非常规事件,因此,即使获取的候选文本中包含候选词,但该候选文本并不是突发事件相关的文本。由此,在获取了候选文本之后,可以对候选文本进行语义分析,以确定候选文本是否描述了突发事件。
42.可选的,可以采用注意力增强的双向长短时记忆模型(bert-att-bilstm模型)对候选文本进行语义分析,以确定候选文本中包含的与突发事件关联的关联文本。
43.或者,也可以采用隐含狄利克雷分布(latent dirichlet allocation,lda)对候选文本进行语义分析,以确定候选文本中包含的与突发事件关联的关联文本。
44.需要说明的是,本公开实施例中,也可以采取其他任何可取的方式对候选文本进行语义分析,以确定候选文本中包含的与突发事件关联的关联文本。本公开对此不做限定。
45.步骤103,对关联文本进行实体提取,以确定关联文本对应的第一实体集。
46.可选的,第一实体集中可以包括第一事件类型、第一地理位置及第一发生时间。
47.其中,第一事件类型可以为关联文本描述的突发事件的类型。比如,关联文本对应的第一事件类型可以为暴雨、龙卷风等,本公开对此不做限定。
48.其中,第一地理位置可以为关联文本描述的突发事件发生的地理位置。比如,关联文本对应的第一地理位置可以为xx省xx市xx县,或者xx省等,本公开对此不做限定。
49.其中,第一发生时间可以为关联文本描述的突发事件的发生的事件信息。比如,关联文本对应的第一发生时间可以为2020年10月20日,2008年等,本公开对此不做限定。
50.需要说明的是,关联文本中若不包含突发事件对应的发生时间,则关联文本对应的第一实体集中的第一发生时间为空;或者,关联文本中不包含突发时间对应的地理位置,
则关联文本对应的第一实体集中的第一地理位置为空。
51.步骤104,确定第一实体集与突发事件数据集中每个突发事件对应的第二实体集之间的第一相似度。
52.可选的,每个突发事件对应的第二实体集中可以包括第二事件类型、第二地理位置及第二发生时间。
53.可选的,在第一实体集中包含的第一事件类型、第一地理位置及第一发生时间均不为空的情况下,可以根据第一事件类型与第二事件类型之间的第二相似度,第一地理位置与第二实体集中第二地理位置之间的第三相似度、第一发生时间与第二实体集中第二发生时间之间的第四相似度,确定第一实体集与突发事件数据集中每个突发事件对应的第二实体集之间的第一相似度。
54.或者,在第一实体集中包含的第一事件类型、第一地理位置及第一发生时间均不为空的情况下,采用欧式距离公式、曼哈顿距离公式计算第一实体集与第二实体集之间的第一相似度,或者,还可以通过计算第一实体集与第二实体集之间的余弦相似度,将余弦相似度作为第一实体集与第二实体集之间的第一相似度,本公开在此不做限定。
55.步骤105,在第一实体集与任一第二实体集间的第一相似度大于第一阈值的情况下,确定关联文本为任一第二实体集对应的第一突发事件的关联文本。
56.可以理解的是,若第一实体集与任一第二实体集间的第一相似度大于第一阈值,表示关联文本与任一第二实体集对应的第一突发事件描述的是同一个突发事件,因此,可以将关联文本与任一第二实体集对应的第一突发事件进行关联,即可以将关联文本存入突发事件数据集中任一第二实体集对应的第一突发事件对应的集合中。
57.可选的,在各个第一相似度均小于或等于第一阈值,表示突发事件数据集中不包含关联文本描述的突发事件,因此,可以将关联文本及第一实体集关联存入突发事件数据集中,作为新的突发事件。从而可以准确地监测到新的突发事件的发生,以便突发事件应急管理人员可以及时地监测到新的突发事件的发生,并根据突发事件对应的第一实体集中的第一事件类型、第一地理位置、第一发生事件,及时地对突发事件采取应急措施。
58.本公开实施例中,首先基于词库中包含的参考词,对网络信息进行遍历,以从中提取包含参考词的候选文本,之后对候选文本进行语义分析,以确定候选文本中包含的与突发事件关联的关联文本,再对关联文本进行实体提取,以确定关联文本对应的第一实体集,之后确定第一实体集与突发事件数据集中每个突发事件对应的第二实体集之间的第一相似度,最后在第一实体集与任一第二实体集间的第一相似度大于第一阈值的情况下,确定关联文本为任一第二实体集对应的第一突发事件的关联文本。由此,将网络信息中包含的突发事件文本进行分析、整理,不仅可以从海量的网络信息中及时准确地挖掘突发事件的相关信息,而且可以将描述同一突发事件的文本进行聚类,从而可以及时地发现新的突发事件。
59.图2为本公开一实施例所提供的一种突发事件的监测方法的流程示意图,如图2所示,该突发事件的监测方法可以包括以下步骤:
60.步骤201,基于词库中包含的参考词,对网络信息进行遍历,以从中提取包含参考词的候选文本。
61.本公开实施例中,可以先随机获取每种类型的突发事件相关的多个文本,将多个
文本合并为一个文本,之后对合并后的文本进行分词处理,以获取合并后的文本中包含的词语,对每个词语进行词频统计,即获取每个词语在合并后的文本中出现的次数,之后将词频大于预设阈值的词语作为该类型突发事件对应的参考词。
62.需要说明的是,每种类型突发事件对应的参考词可以为一个、也可以为多个,本公开对此不做限定。
63.可选的,在获取参考词之后,可以根据每个参考词对应的词频,确定每个参考词对应的权重。其中权重与词频呈正相关关系,即参考词对应的词频越大,则对应的权重越大。
64.可选的,在利用参考词抓取候选文本之后,还可以根据候选文本,调整参考词及对应的权重。
65.本公开实施例中,在获取每种类型的突发事件相关的多个文本之后,可以对每个文本进行删除统一资源定位符(uniform resource locator,url)、空格、标点符号等预处理操作,之后将预处理后的每个文本编码为相同的编码格式。比如,将每个文本统一为utf-8(universal character set/unicode transformation format)的编码格式。其中,utf-8是针对统一码(unicode)的一种可变长度字符编码。
66.步骤202,对候选文本进行语义分析,以确定候选文本中包含的与突发事件关联的关联文本。
67.本公开实施例中,图3为本公开一实施例所提供的一种对候选文本进行语义分析的示意图,如图3所示,可以采用注意力增强的双向长短时记忆模型(bert-att-bilstm模型)对候选文本进行语义分析,以确定候选文本中包含的与突发事件关联的关联文本。即先将候选文本输入bert中,以获取候选文本的语义表示,之后将候选文本的语义表示输入att-bilstm中,以进一步对候选文本的语义表示进行语义分析,判断候选文本是否为突发事件的关联文本。
68.本公开实施例中,bert(bidirectional encoder representation from transformers)是词向量生成模型,可以采用双向的transformer架构,能够联合模型所有层中的上下文进行训练。此处采用预训练的bert中文基础模型(bert-base-chinese),其中,可以包括12层transformer结构和12个自注意力机制,向量维度为768。
69.需要说明的是,本公开实施例中,对transformer结构的层数自注意力机制的数量,及向量维度不做限定。
70.本公开实施例中,双向长短时记忆模型(bi-directional long short-term memory,bilstm)层包括前向lstm和反向lstm其输出表示为:
[0071][0072]
其中,为句子s的字符i的前向信息,为句子s的字符i的后向信息,两者均为隐藏向量。各字符的注意力权重表示如下:
[0073][0074]
其中,为注意力得分,v为权重,v的t次方是v的转置矩阵,ωs为注意力机制中句子s对应的权重,bs为注意力机制中句子s对应的偏置,tanh(.)为双曲正切函数,t为字符数
量,为句子s中字符i的注意力权重。
[0075]
其中,上下文表示的输出为:
[0076][0077]
其中,f为候选文本的语义特征。
[0078]
其中,逻辑回归(softmax)层用于根据候选文本的语义特征生成类空间上的条件概率,从而判断候选文本是否是突发事件的关联文本。
[0079]
步骤203,对关联文本进行实体提取,以确定关联文本对应的第一实体集。
[0080]
可选的,可以先从参考词库中获取每个事件类型对应的参考词集,之后根据每个事件类型对应的参考词集中每个参考词在关联文本中的出现次数,及每个参考词的权重,确定关联文本与每个事件类型间的关联概率值,之后根据每个关联概率值与每个事件类型对应的第二阈值,确定关联文本对应的第一事件类型。
[0081]
其中,关联概率值的计算公式可以为:
[0082]
pe=∑
kck
wk[0083]
其中,pe关联文本与每个事件类型e间的关联概率值,为ck为参考词k的出现次数,wk为参考词k对应的权重。
[0084]
若pe的值大于事件类型e对应的第二阈值,则该关联文本对应的第一事件类型对事件类型e。
[0085]
需要说明的是,由于自然灾害之间往往存在连锁反应,比如,台风通常伴随着暴雨发生,因此,一个关联文本也可以对应多个事件类型。若关联帖子既描述了台风,又描述了由于台风原因造成的暴雨,则该关联帖子可以对应暴雨事件类型和台风事件类型。
[0086]
可选的,可以根据位置实体库中包含的位置实体,对关联文本进行位置提取,以确定关联文本对应的第一地理位置。
[0087]
可选的,关联文本中可能包含具体的位置,比如xx省xx市xx县;也可以不包含具体的位置,但是包含可以代表具体位置的建筑物,进而可以根据建筑物确定关联文本描述的突发事件对应的位置。
[0088]
本公开实施例中,可以先根据第一位置实体库对关联文本进行具体的位置实体提取,以获取关联文本描述的突发事件的具体发生位置。若未提取到具体的位置,则进一步根据第二位置实体库从关联文本包含的内容中提取建筑物实体,进而根据建筑物实体所在的地理位置,获取关联文本描述的突发事件的具体发生位置。
[0089]
其中,第一位置实体库中包含的是具体的地理位置,第二实体库中包含的是可以代表地理位置的建筑物等。
[0090]
可选的,在确定关联文本描述的突发事件的具体发生位置之后,可以将具体发生位置进行结构化表示,即表示为xx省xx市xx县/区xx村/镇的形式。
[0091]
本公开实施例中,若关联文本中不包含位置信息,则将关联文本删除,不再确定与其关联的突发事件。
[0092]
可选的,可以基于预设的算法,对关联文本进行时间提取,以确定关联文本对应的第一发生时间。
[0093]
可选的,本公开实施例中,可以采取任何可取的方式对关联文本进行时间提取,以
确定关联文本对应的第一发生时间。比如,可以采用正则表达式提取关联文本中包含的时间信息。本公开对此不做限定。
[0094]
本公开实施例中,若从关联文本中提取的时间信息为绝对时间,比如xxxx年xx月xx日xx时xx分,则可以直接将该绝对信息作为关联文本对应的第一发生时间。若从关联文本中提取的时间信息为昨天、清晨、三天前等信息,进而根据关联文本的发布时间确定关联文本对应的第一发生时间,此时的第一发生时间对相对时间。比如关联文本的发布时间为2020年3月5日,关联文本中包含的时间信息为昨天,则关联文本对应的第一时间信息为2020年3月4日。
[0095]
步骤204,确定第一事件类型与第二实体集中第二事件类型之间的第二相似度、第一地理位置与第二实体集中第二地理位置之间的第三相似度、第一发生时间与第二实体集中第二发生时间之间的第四相似度。
[0096]
可以理解的是,若关联文本与突发事件数据集中的某一第一突发事件描述的是相同的突发事件的情况下,关联文本对应的第一事件类型应该与该第一突发事件对应的第二事件类型相同,因此,若第一事件类型与第二事件类型的相同,则第二相似度为1;若第一事件类型与第二事件类型的相同,则第二相似度为0。
[0097]
本公开实施例中,若第一事件类型与第二事件类型相同,第一地理位置与第二地理位置的差异较小,第一发生时间与第二发生时间的差异也较小,则关联事件可能描述的是第二实体集对应的第一突发事件。因此,可以在第一事件类型与第二事件类型相同的情况下,进一步计算第一地理位置与第二实体集中第二地理位置之间的第三相似度,及第一发生时间与第二实体集中第二发生时间之间的第四相似度,从而可以减少计算量。
[0098]
可选的,可以根据第一地理位置的等级与第二地理位置的等级,确定第一地理位置与第二实体集中第二地理位置之间的第三相似度。其中,地理位置越详细,等级越高。比如,第一地理位置中包含xx省xx市xx县/区xx村/镇,则其等级最高。
[0099]
举例来说,第一地理位置与第二地理位置为同一村/镇,则第三相似度可以为0.8;若第一地理位置与第二地理位置为同一县/区,且第一地理位置或第二地理位置缺失村/镇信息,则第三相似度可以为0.6;若第一地理位置与第二地理位置为同一个市,且第一地理位置或第二地理位置缺失县/区信息,则第三相似度可以为0.4;若第一地理位置与第二地理位置为同一个省,且第一地理位置或第二地理位置缺失市区信息,则第三相似度可以为0.2;否则,第三相似度可以为0。
[0100]
需要说明的是,上述示例只是简单的举例说明,不能作为本公开实施例中第三相似度的具体限定。
[0101]
可选的,可以根据第一发生时间与第二发生时间之间的第一时间差,确定第四相似度。
[0102]
举例来说,若第一时间差小于1分钟,则第四相似度可以为0.9;第一时间差小于1小时,则第四相似度可以为0.7;若第一时间差小于1天,则第四相似度可以为0.5;若第一时间差小于3天,则第四相似度可以为0.3;否则,第四相似度可以为0。
[0103]
需要说明的是,上述示例只是简单的举例说明,不能作为本公开实施例中第四相似度的具体限定。
[0104]
步骤205,根据第二相似度、第三相似度及第四相似度,确定第一实体集与第二实
体集之间的第一相似度。
[0105]
需要说明的是,若关联文本与突发事件数据集中的某一第一突发事件描述的是相同的突发事件的情况下,关联文本对应的第一事件类型应该与该第一突发事件对应的第二事件类型完全相同,因此,第二相似度在确定第一相似度的过程中起决定性作用。
[0106]
其中,第一相似度的计算公式可以为:
[0107]
s1=s2×
(as3 bs4)
[0108]
其中,s1为第一相似度,s2为第二相似度,s3为第三相似度,s4为第四相似度,a为第三相似度对应的权重,b为第四相似度对应的权重。
[0109]
其中,a的取值可以为0.5,b的取值可以为0.5。本公开对此不做限定。
[0110]
步骤206,在第一实体集与任一第二实体集间的第一相似度大于第一阈值的情况下,确定关联文本为任一第二实体集对应的第一突发事件的关联文本。
[0111]
步骤207,根据第一实体集对任一第二实体集进行更新,以获取更新后的任一第二实体集。
[0112]
可以理解的是,突发事件数据集中每个第一突发事件对应的第二实体集中的第二发生时间,第二地理位置,可能并不是特别详细,若新检测到的关联文本中包含更具体的第一发生事件、第一地理位置,则可以对关联文本描述的第一突发事件对应的第二实体集进行更新,以使该第一突发事件的信息更加准确。
[0113]
可选的,在第一地理位置的等级高于任一第二实体集中的第二地理位置的等级的情况下,根据第一地理位置,对任一第二实体集中的第二地理位置进行更新,以获取更新后的任一第二实体集。
[0114]
举例来说,关联文本对应的第一地理位置为xx省xx市xx县xx镇,而任一第二实体集中包含的第二地理位置为xx省,则第一地理位置的等级高于第二地理位置的等级,则可以将第二实体集中的第二地理位置更新为xx省xx市xx县xx镇。
[0115]
或者,在第一发生时间为绝对时间,任一第二实体集中的第二发生时间为相对时间的情况下,根据第一发生时间,对任一第二实体集中的第二发生事件进行更新,以获取更新后的任一第二实体集。
[0116]
举例来说,关联文本对应的第一发生时间为绝对时间2016年10月22日10时,而任一第二实体集中包含的第二发生时间为根据“清晨”、“昨日”等时间信息推算出的相对时间,则可以将第二实体集中的第二发生时间更新为2016年10月22日10时。
[0117]
本公开实施例中,若第一实体集与任一第二实体集完全相同,则不需要根据第一实体集对任一第二实体集进行更新。
[0118]
本公开实施例中,根据关联文本对应的第一实体集对与其描述的第一突发事件对应的第二实体集进行更新,以获取更新后的第二实体集,从而可以使突发事件数据库中每个突发事件对应的发生时间、发生位置更加准确,从而方便相关工作人员根据突发时间的具体信息采取处理措施。
[0119]
步骤208,确定更新后的任一第二实体集与其余每个第二实体集之间的第五相似度。
[0120]
其中,步骤208中确定第五相似度的具体实现形式,可参照本公开实施例中确定第一相似度的具体描述,此处不再详细赘述。
[0121]
步骤209,响应于任一第五相似度大于第一阈值,将任一第五相似度对应的第二实体集对应的突发事件与更新后的任一第二实体集对应的突发事件关联。
[0122]
可以理解的是,在任一第五相似度大于第一阈值的情况下,说明突发事件数据集中存在与关联文本描述的第一突发事件相同的其他第一突发事件,因此可以将这两个描述同一突发事件的集合进行合并。
[0123]
本公开实施例中,在将任一第五相似度对应的第二实体集对应的突发事件与更新后的任一第二实体集对应的突发事件关联之后,还可以根据更新后的任一第二实体集对任一第五相似度对应的第二实体集进行更新,即循环步骤207、步骤208及步骤209,直至两个突发事件对应的实体集完全相同。
[0124]
本公开实施例中,首先基于词库中包含的参考词,对网络信息进行遍历,以从中提取包含参考词的候选文本,之后对候选文本进行语义分析,以确定候选文本中包含的与突发事件关联的关联文本,对关联文本进行实体提取,以确定关联文本对应的第一实体集,之后获取第一实体集与每个第一突发事件对应的第二实体集之间的第一相似度,在第一实体集与任一第二实体集间的第一相似度大于第一阈值的情况下,确定关联文本为任一第二实体集对应的第一突发事件的关联文本,之后根据第一实体集对任一第二实体集进行更新,以获取更新后的任一第二实体集,确定更新后的任一第二实体集与其余每个第二实体集之间的第五相似度,响应于任一第五相似度大于第一阈值,将任一第五相似度对应的第二实体集对应的突发事件与更新后的任一第二实体集对应的突发事件关联。由此,将网络信息中包含的突发事件文本进行分析、整理,可以根据新发现的关联文本中包含的突发事件的具体信息,对突发时间数据集中包含的突发事件的信息进行更新,以使获取的突发事件的相关信息更加准确。
[0125]
图4为本公开一另实施例所提供的一种突发事件的监测方法的流程示意图,如图4所示,该突发事件的监测方法可以包括以下步骤:
[0126]
步骤401,基于词库中包含的参考词,对网络信息进行遍历,以从中提取包含参考词的候选文本。
[0127]
步骤402,对候选文本进行语义分析,以确定候选文本中包含的与突发事件关联的关联文本。
[0128]
步骤403,对关联文本进行实体提取,以确定关联文本对应的第一实体集。
[0129]
其中,步骤401-步骤403的具体实现形式,可参照本公开其他各实施例中的详细描述,此处不再详细赘述。
[0130]
步骤404,响应于第一实体集中不包含第一发生时间,根据突发事件数据集中每个第二突发事件对应的第二发生时间,获取预设时段内与第一实体集中包含的第一事件类型相同的多个第二突发事件。
[0131]
可以理解的是,第一实体集中不包含第一发生时间,即第一发生时间为空,表示关联文本中没有包含突发事件对应的发生时间,即关联文本对应的第一实体集中只包含第一事件类型集第一地理位置。
[0132]
可选的,在关联文本中不包含突发事件的情况下,可以根据关联文本描述的突发事件的类型,即第一实体集中第一事件类型,及关联文本的发布时间,从突发事件数据集中包含的突发事件中,获取与关联文本的发布时间相近,且事件类型相同的多个第二突发事
件,进而判断关联文本是否描述某一第二突发事件。
[0133]
其中,预设时段可以为5天,10天等等,本公开对此不做限定。
[0134]
举例来说,关联文本的发布时间为2021年9月15日,关联文本对应的事件类型为暴雨,预设时段为5天,则可以从突发事件数据集中获取第二发生时间在2021年9月10日至2021年9月15日,第二事件类型为暴雨的多个第二突发事件。
[0135]
或者,在关联文本中不包含突发事件的情况下,还可以根据关联文本对应的第一事件类型,第一地理位置,及关联文本的发布时间,从突发事件数据集中包含的突发事件中,获取与关联文本的发布时间相近,且事件类型相同,地理位置相近的多个第二突发事件。
[0136]
举例来说,关联文本的发布时间为2021年8月10日,关联文本对应的第一事件类型为暴雨,第一地理位置为xx省xx市,预设时段为3天,则可以从突发事件数据集中获取第二发生时间在2021年8月7日至2021年8月10日,第二地理位置为xx省xx市或xx省,第二事件类型为暴雨的多个第二突发事件。
[0137]
需要说明的是,上述示例只是简单的举例说明,不能作为本公开实施例中,关联文本的发布时间、第一事件类型、第一地理位置等的具体限定。
[0138]
步骤405,获取每个第二突发事件关联的文本总数量、关联文本与每个第二突发事件关联的文本之间相同的字符数、及关联文本的发布时间与每个第二突发事件对应的第二发生时间之间的第二时间差。
[0139]
需要说明的是,突发事件数据集中的每个突发事件可以关联多个描述该突发事件的文本。
[0140]
本公开实施例中,若第二突发事件关联的文本总数量超过第三阈值,则可以随机选择第三阈值个与突发事件关联的文本计算第二突发事件关联的文本与关联文本之间相同的字符数,从而可以减少计算量。
[0141]
其中,第三阈值可以为60、80等等,本公开对此不做限定。
[0142]
举例来说,若第二突发事件关联的文本总数量为200个,第三阈值为60,则可以随机从200个与第二突发事件关联的文本中选择60个文本计算与关联文本之间的相同的字符数。将60个与第二突发事件关联的文本合并为一个文本,之后分别对合并后的文本、及关联文本进行分词处理,计算关联文本中的每个字符是否在合并后的文本中出现,最后确定关联文本中的字符在合并后的文本中出现的总字符数量,即为关联文本与第二突发事件关联的文本之间相同的字符数。
[0143]
可选的,本公开实施例中,可以采取任何可取的方式对合并后的文本、及关联文本进行分词处理。比如,可以采用结巴(jieba)分词器分别对合并后的文本、及关联文本进行分词处理。本公开对此不做限定。
[0144]
步骤406,根据第二突发事件关联的文本总数量、相同的字符数及第二时间差,确定关联文本关联的第二突发事件。
[0145]
可选的,可以将第二突发事件关联的文本总数量、相同的字符数及第二时间差输入逻辑回归模型(logistic regression,lr),以确定关联文本是否描述该第二突发事件。
[0146]
可选的,逻辑回归模型的计算公式可以为:
[0147]
logit(p)=β0 β1nw β2δt β3n
p
[0148]
其中,nw为关联文本与第二突发事件关联的文本之间相同的字符数,δt为第二时间差,n
p
为第二突发事件关联的文本总数量。β0、β1、β2、β3为逻辑回归模型的参数,可以在逻辑回归模型的训练过程中确定,本公开对此不做限定。
[0149]
其中,logit(p)为逻辑回归模型的输出,若p为0,则表示关联文本描述的不是第二突发事件,则将关联文本删除;若p为1,则表示关联文本描述的是第二突发事件,进而可以将关联文本与该第二突发事件进行关联,即将关联文本合并至第二突发事件对应的文本集中。
[0150]
本公开实施例,首先基于词库中包含的参考词,对网络信息进行遍历,以从中提取包含参考词的候选文本。之后对候选文本进行语义分析,以确定候选文本中包含的与突发事件关联的关联文本,再对关联文本进行实体提取,以确定关联文本对应的第一实体集,在第一实体集中不包含第一发生时间的情况下,根据突发事件数据集中每个第二突发事件对应的第二发生时间,获取预设时段内与第一实体集中包含的第一事件类型相同的多个第二突发事件,之后再每个第二突发事件关联的文本总数量、关联文本与每个第二突发事件关联的文本之间相同的字符数、及关联文本的发布时间与每个第二突发事件对应的第二发生时间之间的第二时间差,最后根据第二突发事件关联的文本总数量、相同的字符数及第二时间差,确定关联文本关联的第二突发事件。由此,在关联文本中不包含第一发生时间的情况下,也可以准确地确定关联文本描述的第二突发事件,从而实现对网络信息中描述突发事件的文本的整理。
[0151]
图5为本公开另一实施例所提供的一种突发事件的监测方法的流程示意图。如图5所示,该突发事件的监测方法包括:
[0152]
阶段1:对基于词库中包含的参考词,对网络信息进行遍历,以从中提取包含参考词的候选文本,之后对所述候选文本进行语义分析,以确定候选文本是否与突发事件关联,若与突发事件关联,则该候选文本为突发事件的关联文本。
[0153]
阶段2:对关联文本进行实体提取,以获取关联文本对应的第一事件类型、第一地理位置、第一发生时间。
[0154]
阶段3:在从关联文本中成功提取第一事件类型、第一地理位置、第一发生时间三个实体之后,获取第一实体集与突发事件数据集中每个第一突发事件对应的第二实体集之间的第一相似度,其中,第一实体集中包含第一事件类型、第一地理位置、第一发生时间,第二实体集中包含第二事件类型、第二地理位置、第二发生时间,之后根据第一相似度确定关联文本描述的第一突发事件,将关联文本存入突发事件数据集中与其对应的第一突发事件中。
[0155]
在未从关联文本中提取到第一发生时间的情况下,根据关联文本的发布时间,从突发事件数据集中获取与关联文本的发布时间相近的多个第二突发事件,之后采用逻辑回归模型判断关联文本描述的第二突发事件,在确定关联文本描述的第二突发事件之后,将关联文本与其对应的第二突发事件关联。
[0156]
为了实现上述实施例,本公开还提出一种突发事件的监测装置。
[0157]
图6为本公开一实施例所提供的一种突发事件的监测装置的结构示意图。如图6所示,该突发事件的监测装置600可以包括:第一获取模块610、第一确定模块620、第二确定模块630、第三确定模块640、第四确定模块650。
[0158]
其中,第一获取模块610,用于基于词库中包含的参考词,对网络信息进行遍历,以从中提取包含参考词的候选文本;
[0159]
第一确定模块620,用于对候选文本进行语义分析,以确定候选文本中包含的与突发事件关联的关联文本;
[0160]
第二确定模块630,用于对关联文本进行实体提取,以确定关联文本对应的第一实体集;
[0161]
第三确定模块640,用于确定第一实体集与突发事件数据集中每个突发事件对应的第二实体集之间的第一相似度;
[0162]
第四确定模块650,用于在第一实体集与任一第二实体集间的第一相似度大于第一阈值的情况下,确定关联文本为任一第二实体集对应的第一突发事件的关联文本。
[0163]
可选的,第二确定模块630,具体用于:
[0164]
从参考词库中获取每个事件类型对应的参考词集;
[0165]
根据每个事件类型对应的参考词集中每个参考词在关联文本中的出现次数,及每个参考词的权重,确定关联文本与每个事件类型间的关联概率值;
[0166]
根据每个关联概率值与每个事件类型对应的第二阈值,确定关联文本对应的第一事件类型;
[0167]
根据位置实体库中包含的位置实体,对关联文本进行位置提取,以确定关联文本对应的第一地理位置;
[0168]
基于预设的算法,对关联文本进行时间提取,以确定关联文本对应的第一发生时间。
[0169]
可选的,第三确定模块640,具体用于:
[0170]
确定第一事件类型与第二实体集中第二事件类型之间的第二相似度、第一地理位置与第二实体集中第二地理位置之间的第三相似度、第一发生时间与第二实体集中第二发生时间之间的第四相似度;
[0171]
根据第二相似度、第三相似度及第四相似度,确定第一实体集与第二实体集之间的第一相似度。
[0172]
可选的,第三确定模块640,具体用于:
[0173]
根据第一发生时间与第二发生时间之间的第一时间差,确定第四相似度。
[0174]
可选的,还包括更新模块,具体用于:
[0175]
响应于第一地理位置的等级高于任一第二实体集中的第二地理位置的等级,根据第一地理位置,对任一第二实体集中的第二地理位置进行更新,以获取更新后的任一第二实体集;
[0176]
或者,
[0177]
响应于第一发生时间为绝对时间,任一第二实体集中的第二发生时间为相对时间,根据第一发生时间,对任一第二实体集中的第二发生时间进行更新,以获取更新后的任一第二实体集。
[0178]
可选的,还包括关联模块,具体用于:
[0179]
确定更新后的任一第二实体集与其余每个第二实体集之间的第五相似度;
[0180]
响应于任一第五相似度大于第一阈值,将任一第五相似度对应的第二实体集对应
architecture;以下简称:isa)总线,微通道体系结构(micro channel architecture;以下简称:mac)总线,增强型isa总线、视频电子标准协会(video electronics standards association;以下简称:vesa)局域总线以及外围组件互连(peripheral component interconnection;以下简称:pci)总线。
[0195]
计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
[0196]
存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(random access memory;以下简称:ram)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图7未显示,通常称为“硬盘驱动器”)。尽管图7中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如:光盘只读存储器(compact disc read only memory;以下简称:cd-rom)、数字多功能只读光盘(digital video disc read only memory;以下简称:dvd-rom)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本公开各实施例的功能。
[0197]
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本公开所描述的实施例中的功能和/或方法。
[0198]
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(local area network;以下简称:lan),广域网(wide area network;以下简称:wan)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图7中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。
[0199]
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现前述实施例中提及的方法。
[0200]
本公开的技术方案,首先基于词库中包含的参考词,对网络信息进行遍历,以从中提取包含参考词的候选文本,之后对候选文本进行语义分析,以确定候选文本中包含的与突发事件关联的关联文本,再对关联文本进行实体提取,以确定关联文本对应的第一实体集,之后确定第一实体集与突发事件数据集中每个突发事件对应的第二实体集之间的第一相似度,最后在第一实体集与任一第二实体集间的第一相似度大于第一阈值的情况下,确定关联文本为任一第二实体集对应的第一突发事件的关联文本。由此,将网络信息中包含的突发事件文本进行分析、整理,不仅可以从海量的网络信息中及时准确地挖掘突发事件
的相关信息,而且可以将描述同一突发事件的文本进行聚类,从而可以及时地发现新的突发事件。
[0201]
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本公开的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
[0202]
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本公开的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
[0203]
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本公开的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本公开的实施例所属技术领域的技术人员所理解。
[0204]
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(ram),只读存储器(rom),可擦除可编辑只读存储器(eprom或闪速存储器),光纤装置,以及便携式光盘只读存储器(cdrom)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
[0205]
应当理解,本公开的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。
[0206]
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
[0207]
此外,在本公开各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
[0208]
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本公开的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本公开的限制,本领域的普通技术人员在本公开的范围内可以对上述实施例进行变化、修改、替换和变型。
转载请注明原文地址:https://tc.8miu.com/read-2535.html