1.本技术涉及数据处理技术领域,特别的,尤其涉及一种外部风险事件提取方法及装置。
背景技术:
2.业务需求从操作风险部门而来,每个公司都有自己的操作风险系统,对自己的客户和一些上市公司的行为、近况、风险进行追踪。其中,外部风险来自于那些公开的负面新闻与处罚公告,与其所彰示的潜在风险事件,而识别外部风险事件,有助于公司去判断目标的风险与信用水平,也能为潜在的风险做出准备,提前得到带有清晰、简洁内容的预警。
3.目前,市场上存在一些类似的风险提醒,但是主要依赖于大量人工对于信息的处理或是简单的语言逻辑识别风险(利用正则表达式去判断风险的发生)。然而真实的场景中,文章的字数多、信息杂等特点,即使是用人工对公告筛选,也会存在一些误判和遗漏,阅读的时间也会被拖长;另外,通过人工或者语言逻辑得到的信息,往往都是松散、杂乱的信息,甚至会内涵上下文的冗余。若得到的信息如果不整理成统一格式,也很难去后续判别风险等级或是进行数据处理。
4.为此,新兴一种基于深度学习的自然语言处理算法在一定程度上可以改善目前市场上的信息处理能力,对复杂场景的鲁棒性也较好,不需要根据不同的公告文章做出不同的逻辑处理。但是由于依赖的语言模型过大、精调数据缺失,在识别精度、时间精度上,目前的技术还尚存在不足。
技术实现要素:
5.鉴于上述内容中存在的问题,本技术提供了一种外部风险事件提取方法及装置,用以提高数据的可利用性和提高用户体验。
6.为了实现上述目的,本技术提供了以下技术方案:
7.一种外部风险事件提取方法,包括:
8.获取源数据,并根据目标事件提取请求定位所述源数据内含重要信息的关键段落,所述关键段落中包含待提取的问题目标;
9.对所述关键段落进行触发词的语义识别,确定所述关键段落中包含的触发词;
10.当所述触发词为预设触发词时,则将所述关键段落输入带有漂白语句的预设事件抽取模型,根据预先指定的事件类型和论元角色进行目标事件的事件抽取,确定对应的事件信息。
11.进一步的,还包括:
12.根据预设风险事件的预警等级对所述事件信息进行风险预警。
13.进一步的,所述根据目标事件提取请求定位所述源数据内含重要信息的关键段落,包括:
14.获取所述目标事件提取请求,所述目标事件提取请求中包含目标事件;
15.依据所述目标事件,通过预设行文规则定位所述源数据内含重要信息的关键段落。
16.进一步的,所述将所述关键段落输入带有漂白语句的预设事件抽取模型,根据预先指定的事件类型和论元角色进行目标事件的事件抽取,确定对应的事件信息,包括:
17.根据所述触发词确定对应的漂白语句,所述漂白语句包括:语义令牌以及包含位置信息的字典;
18.依次从左到右对所述漂白语句中的每个占位符进行填充;
19.根据预先指定的事件类型和论元角色进行目标事件的事件抽取,确定对应的所述事件信息。
20.一种外部风险事件提取装置,包括:
21.第一处理单元,用于获取源数据,并根据目标事件提取请求定位所述源数据内含重要信息的关键段落,所述关键段落中包含待提取的问题目标;
22.第二处理单元,用于对所述关键段落进行触发词的语义识别,确定所述关键段落中包含的触发词;
23.第三处理单元,用于当所述触发词为预设触发词时,则将所述关键段落输入带有漂白语句的预设事件抽取模型,根据预先指定的事件类型和论元角色进行目标事件的事件抽取,确定对应的事件信息。
24.进一步的,还包括:
25.第四处理单元,用于根据预设风险事件的预警等级对所述事件信息进行风险预警。
26.进一步的,所述第一处理单元具体用于:
27.获取所述目标事件提取请求,所述目标事件提取请求中包含目标事件;
28.依据所述目标事件,通过预设行文规则定位所述源数据内含重要信息的关键段落。
29.进一步的,所述第三处理单元具体用于:
30.根据所述触发词确定对应的漂白语句,所述漂白语句包括:语义令牌以及包含位置信息的字典;
31.依次从左到右对所述漂白语句中的每个占位符进行填充;
32.根据预先指定的事件类型和论元角色进行目标事件的事件抽取,确定对应的所述事件信息。
33.一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在的设备执行如上述所述的外部风险事件提取方法。
34.一种电子设备,所述电子设备包括至少一个处理器、以及与所述处理器连接的至少一个存储器、总线;其中,所述处理器、所述存储器通过所述总线完成相互间的通信;所述处理器用于调用所述存储器中的程序指令,以执行如上述所述的外部风险事件提取方法。
35.本技术所述的外部风险事件提取方法及装置,通过获取源数据,并根据目标事件提取请求定位所述源数据内含重要信息的关键段落,所述关键段落中包含待提取的问题目标;对所述关键段落进行触发词的语义识别,确定所述关键段落中包含的触发词;当所述触发词为预设触发词时,则将所述关键段落输入带有漂白语句的预设事件抽取模型,根据预
先指定的事件类型和论元角色进行目标事件的事件抽取,确定对应的事件信息。本技术通过将自然语言信息转换成结构化数据,并将信息整理成统一格式的数据,以实现提高数据的可利用性和提升用户体验的目的。
附图说明
36.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
37.图1为本技术实施例公开的一种外部风险事件提取方法的流程示意图;
38.图2为本技术实施例公开的行政处罚决定书示意图;
39.图3为本技术实施例公开的人类注释者使用注释指南和有限的说明性示例示意图;
40.图4为本技术实施例公开的通过漂白语句完成事件抽取的过程示意图;
41.图5为本技术实施例公开的一种外部风险事件提取装置的结构示意图;
42.图6为本技术实施例公开的一种电子设备的结构示意图。
具体实施方式
43.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
44.请参见附图1,为本技术实施例提供的一种外部风险事件提取方法流程示意图。如图1所示,本技术实施例提供了一种外部风险事件提取方法,该方法包括如下步骤:
45.s101:获取源数据,并根据目标事件提取请求定位所述源数据内含重要信息的关键段落,所述关键段落中包含待提取的问题目标。
46.本步骤中,源数据的数据来源包括机构的官网、金融信息网站等,具体的,可以是官网公告、公开的公司财报或者公司内部报告等。
47.需要说明的是,一段文字(处罚公告或是舆论新闻)往往结构复杂,中间掺杂着许多背景铺垫和主观情绪等。在风险事件预警的系统中,我们只需要那些确切、精准的信息,并不需要这些
‘
冗余信息’。本技术实施例中,可以预先将常见风险事件分类,例如
‘
违反法规’,
‘
高管变动’等,利用规定好格式的事件抽取,根据每个事件寻找事件所包含的论元信息,整理成统一格式的数据(事件类型 论元角色),方便后续处理。
48.需要说明的是,跟谓语搭配的名词称为论元,每个动词都有自己的论元结构,规定哪些论元是必需的,哪些是任选的,还规定论元在句子的语法功能(如主语、宾语等)以及论元与动词的语义关系(如施事、受事等),其中,目标事件类型(eventtype)和论元角色(role)限定了抽取的范围,例如 (eventtype:罚款,role:时间,处罚方,被处罚方,罚款金额)(eventtype:人事变动,role:时间,职位,被替换人,替换人)。
49.进一步的,举例说明,可以利用一些基本语言处理技术,比如正则表达式或者人工
粗看等筛选出有用的段落,去掉无关信息的冗余文字。这种方法只需要人工去粗看并识别有关键主体的段落即可,并不需要精读与信息抽取,可以大大提高效率,减少人工的疲劳,降低。本技术实施例主要是利用正则表达式匹配规则,在已有的文章中利用一些规则和逻辑,去查找包含关键词的段落,筛选掉不含关键词的,力求将最短的相关文本输出。
50.例:
‘
罚款’事件的相关信息仅在关键段落内提及,因此,在本技术实施例中只需将相应段落提取即可。
51.本技术实施例中,以图2中所述的行政处罚决定文本作为例子,在这篇证监会处罚报告中,文章的上半部分有大量背景信息,和要抽取的目标事件关联不大。事件提取需要的仅仅是
‘
我会决定:’之后的一小段文字。实际上,绝大部分的证监会处罚报告,都会以相同格式的话术来宣告处罚结果。参照目前的情况,则可以总结这种规则,利用正则表达式或者人工去定位这样有明显标志的段落。
52.进一步的,上述所述根据目标事件提取请求定位所述源数据内含重要信息的关键段落,包括:获取所述目标事件提取请求,所述目标事件提取请求中包含目标事件;依据所述目标事件,通过预设行文规则定位所述源数据内含重要信息的关键段落。
53.进一步需要说明的是,在拿到图2中所述的处罚决定文本后,需要定位到关键段落,关键段落中包含我们想要的问题目标(可以自定义常见问题集合,也可以提交感兴趣的具体问题),比如:目标公司最近有什么违法行为吗?目标公司的高管被处罚的具体内容是?
54.本技术实施例中,定位关键段落的方法如下:有了具体目标之后,可以通过寻找一些行文规则来定位关键段落。比如,证监会处罚内容公布都是以
‘
我会决定:’开始的一小段文字,即可通过人工阅读标注关键段落或者正则表达式关键段落的匹配方法来提取关键段落。同样的,其他的公告或者新闻文本也会有相应的行文规则,即使不像证监会文本一样清晰,也可以通过人工识别关键词所在段落、以及正则表达式模糊匹配的方式,将指定的关键段落抽取出来。
55.s102:对所述关键段落进行触发词的语义识别,确定所述关键段落中包含的触发词。
56.本步骤中,确定出关键段落后,需要从中以事件抽取的形式提取出结构化知识:其中,可以利用下文提到的流程,利用带有漂白语句的新型事件抽取方法,去抽取定义好的事件信息,将风险事件转化成统一,简洁的数据,并给出及时预警。
57.比如以下格式:eventtype:罚款,role:时间,处罚方,被处罚方,罚款金额,从图2中的行政处罚决定书中就可以提取出以下内容:event type:罚款,role:时间(2021-4-23),处罚方(证监会),被处罚方(当事人),罚款金额(
××
万元)。
58.s103:当所述触发词为预设触发词时,则将所述关键段落输入带有漂白语句的预设事件抽取模型,根据预先指定的事件类型和论元角色进行目标事件的事件抽取,确定对应的事件信息。
59.具体的,上述所述将所述关键段落输入带有漂白语句的预设事件抽取模型,根据预先指定的事件类型和论元角色进行目标事件的事件抽取,确定对应的事件信息,包括:
60.根据所述触发词确定对应的漂白语句,所述漂白语句包括:语义令牌以及包含位置信息的字典;
61.依次从左到右对所述漂白语句中的每个占位符进行填充;
62.根据预先指定的事件类型和论元角色进行目标事件的事件抽取,确定对应的所述事件信息。
63.需要说明的是,针对传统处理方法需要用到大量人力,通用性和鲁棒性较差的问题,本技术实施例选择先利用简单的技术手段(关键词或者实体识别)定位到答案所在的关键段落,而后再利用一种新颖的流水线式的事件抽取方法,为模型提供带有漂白语句(实体用通用的方式指代)的模型。漂白语句是指基于注释准则、描述事件发生的通常情况的机器可读的自然语言句子。模型能够提取封闭本体下的事件,并且只需阅读新的漂白语句即可将其推广到未知的事件类型。
64.本技术实施例中,在有了关键段落后,需要将关键段落传入模型,利用语言模型做事件抽取。事件抽取的目标是对于给定的自然语言段落,根据预先指定的事件类型和论元角色,识别句子中所有目标事件类型的事件,并根据相应的论元角色集合抽取事件所对应的论元。其中,目标事件类型(eventtype)和论元角色(role)限定了抽取的范围,例如(eventtype:罚款,role:处罚时间,处罚方,被处罚方,罚款数额)。注:此处的模型仅仅是指代语言模型,比如bert或者ernie、xlnet等大的语言模型。模型中不包括预设事件类型和论元角色,仅仅是作为编码器被利用。
65.需要说明的是,本技术实施例使用预训练模型作为工具,去在一段文本中,提取预设的事件类型中所有的论元角色。漂白语句只是众多事件提取方法中,比较新兴的一种,它可以有效帮助我们提高事件抽取算法的准确度和通用性。
66.在本技术实施例中,事件(event)是一个概念,指的是若干与特定矛盾相关的事物,在某一时空内的运动。简单来说,符合
‘
谁干了什么’、
‘
主谓宾’等模式的句子,描述的就是一个事件。比如:
‘
2021年3月21日,张三因非法交易而被罚款60万元。’这句话中,描述的就是一个事件。
67.而事件的抽取,就是这样的任务:从半结构化、非结构化的数据中(文字段落),识别一个与我们的目标相关事件的重要元素出来。事件抽取的重要元素定义有以下几种,是自然语言从业者比较认可的若干概念:事件描述 (eventmention):指描述时间信息的句子或者段落,在模型中,指我们要处理的包含事件信息的关键段落。事件类型(event type):事件的类型,是统一、结构化的数据。在模型中,即为我们需要去抽取的目标。例:企业创办。触发词(trigger):标志当前事件发生的词语,一般是动词。例:成立。事件要素(argument):用以描述一个事件的重要信息,比如参与人、时间、地点等。论元角色(role):指的是事件要素在事件进行过程中所起的作用或者角色。比如
‘
南京’在企业创办事件中的角色是
‘
成立地点’。事件抽取的直接任务,就是识别特定类型的事件,并把事件中担任既定角色的要素找出来,整理成结构化的数据。
68.在上述概念的基础上,本技术实施例列出事件抽取模型的两部分核心构成:事件类型体系:包括事件类型,以及论元角色、触发词等重要角色,统称为schema(体系),例:违反证券法、企业成立、高管变动、罚款,确定了schema,才有相对确定的学习和预测目标。信息抽取方法:事件抽取的 schema和知识图谱的schema是同一种东西,类似
‘
语义槽’,需要从原始文本(事件描述)中抽取特定的片段来填充。所以,有了特定的schema之后,我们需要信息抽取的模型构建,让它从金融相关的语言文本中,抽取schema 中指定的那些信息。
69.s104:根据预设风险事件的预警等级对所述事件信息进行风险预警。
70.需要说的是,比起传统的基于机器学习或者神经网络的抽取方法,本技术实施例采用了一种事件抽取模型,使用从注释手册中提取的漂白语句来抽取事件信息。这种方法可以很好地解决人工标注和机器在信息提取中的脱节。如图3所示,人类注释者使用注释指南和有限的说明性示例,而传统的模型学习标注则需要使用大量标注的示例;本技术实施例的方法结合二者的优势,使用漂白语句(来自注释指南)和标记的示例来学习。
71.相比之下,传统的事件抽取工作分为三个子任务:触发词检测、实体提及检测(检测事件中所有可能出现的事件要素)、事件要素-论元匹配预测(利用事件定义好的论元集合,预测事件要素与触发词的关系,并进行匹配)。在此之前,许多事件抽取任务都采用了一种类似于流水线式的方法,将这三步子任务串联。但由于流水线模型对误差的传递性,单纯的串联只会将错误放大,下层的子任务会继承上层子任务的结果和错误识别。比起传统的机器标注方法,本技术实施例采取的方法可以充分利用注释指南的信息,也可以更好地处理那些数据量较少或者新事件的标注。
72.进一步需要说明的是,本技术实施例中,事件抽取公式与流程如下:
73.首先,漂白语句是模型的关键,漂白语句由以下信息组成:
74.1)语句令牌s=(s1,s2,s3,...,sn),每个si都代表漂白语句中当前词的令牌
75.2)包含位置信息的字典r={(rk:ik)}
k=1,2,...,k
,其中,rk是词ik对应的论元角色,是提前定义好的。
76.本技术实施例中,举例说明:
77.某时间1,某机构2决定,对某人3处以某数额4罚款,其中1-处罚时间、 2-处罚方、3-被处罚方、4-罚款数额。
[0078][0079]
总体来说,事件抽取任务就是给定一个漂白语句s,占位符字典r和文本标签t,返回一个字典r
*
,其中包含事件触发词和提取的参数,如图4所示。
[0080]
如图4所示,对于识别到触发词所对应的漂白语句,本技术实施例中应当强制地从左到右对每个占位符(槽位)进行填充:每次操作只填充一个对应的槽位,并替换当前占位符为抽取结果,更新漂白语句再次传入模型进行抽取。另,抽取的答案并不一定只有一个目标,也可以是集合的结果:如被处罚方=(陈某,林某}。
[0081]
本技术实施例利用了事件抽取的技术手段对外部风险相关文本进行处理,比起传统的人工识别风险能够节省更多的时间,本技术实施例对风险事件的预警等级也可以通过触发词定义好,在识别到对应风险时,及时反馈出相应的量化好的风险严重情况。通过事件识别自带的预警体系,系统对风险的定位、判断,都会比人工判断要更加准确,更加完整。
[0082]
另外,对比于一般利用正则表达式或是逻辑处理事件抽取的工业方法,本技术实施例提供的外部风险事件提取方法有更高的鲁棒性,通用性,对不同领域和行文风格也有更高的识别精度。利用语言逻辑处理文本、提取事件,往往有更高的精确度,却会在数据量过大的场景下,丢失对于结果准确与否的判断,难以去评判答案的对错,从而影响接下来的操作。本技术实施例提到的新兴方法,能够将风险事件提炼成标准化,简洁的数据,从而让
结果的准确度核验更加简便省时,提高精度也会更加容易。
[0083]
本技术实施例提供的外部风险事件提取方法,通过获取源数据,并根据目标事件提取请求定位所述源数据内含重要信息的关键段落,所述关键段落中包含待提取的问题目标;对所述关键段落进行触发词的语义识别,确定所述关键段落中包含的触发词;当所述触发词为预设触发词时,则将所述关键段落输入带有漂白语句的预设事件抽取模型,根据预先指定的事件类型和论元角色进行目标事件的事件抽取,确定对应的事件信息。本技术实施例通过将自然语言信息转换成结构化数据,并将信息整理成统一格式的数据,以实现提高数据的可利用性和提升用户体验的目的。
[0084]
请参阅图6,基于上述实施例公开的一种外部风险事件提取方法,本实施例对应公开了一种外部风险事件提取装置,该装置包括:
[0085]
第一处理单元61,用于获取源数据,并根据目标事件提取请求定位所述源数据内含重要信息的关键段落,所述关键段落中包含待提取的问题目标;
[0086]
第二处理单元62,用于对所述关键段落进行触发词的语义识别,确定所述关键段落中包含的触发词;
[0087]
第三处理单元63,用于当所述触发词为预设触发词时,则将所述关键段落输入带有漂白语句的预设事件抽取模型,根据预先指定的事件类型和论元角色进行目标事件的事件抽取,确定对应的事件信息。
[0088]
进一步的,还包括:
[0089]
第四处理单元64,用于根据预设风险事件的预警等级对所述事件信息进行风险预警。
[0090]
进一步的,所述第一处理单元61具体用于:
[0091]
获取所述目标事件提取请求,所述目标事件提取请求中包含目标事件;
[0092]
依据所述目标事件,通过预设行文规则定位所述源数据内含重要信息的关键段落。
[0093]
进一步的,所述第三处理单元63具体用于:
[0094]
根据所述触发词确定对应的漂白语句,所述漂白语句包括:语义令牌以及包含位置信息的字典;
[0095]
依次从左到右对所述漂白语句中的每个占位符进行填充;
[0096]
根据预先指定的事件类型和论元角色进行目标事件的事件抽取,确定对应的所述事件信息。
[0097]
所述外部风险事件提取装置包括处理器和存储器,上述第一处理单元、第二处理单元、第三处理单元和第四处理单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
[0098]
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来达到提高数据的可利用性和提高用户体验的目的。
[0099]
本技术实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述外部风险事件提取方法。
[0100]
本技术实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述外部风险事件提取方法。
[0101]
本技术实施例提供了一种电子设备,如图6所示,该电子设备60包括至少一个处理器601、以及与所述处理器连接的至少一个存储器602、总线603;其中,所述处理器601、所述存储器602通过所述总线603完成相互间的通信;处理器601用于调用所述存储器602中的程序指令,以执行上述的所述外部风险事件提取方法。
[0102]
本文中的电子设备可以是服务器、pc、pad、手机等。
[0103]
本技术还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:
[0104]
获取源数据,并根据目标事件提取请求定位所述源数据内含重要信息的关键段落,所述关键段落中包含待提取的问题目标;
[0105]
对所述关键段落进行触发词的语义识别,确定所述关键段落中包含的触发词;
[0106]
当所述触发词为预设触发词时,则将所述关键段落输入带有漂白语句的预设事件抽取模型,根据预先指定的事件类型和论元角色进行目标事件的事件抽取,确定对应的事件信息。
[0107]
进一步的,还包括:
[0108]
根据预设风险事件的预警等级对所述事件信息进行风险预警。
[0109]
进一步的,所述根据目标事件提取请求定位所述源数据内含重要信息的关键段落,包括:
[0110]
获取所述目标事件提取请求,所述目标事件提取请求中包含目标事件;
[0111]
依据所述目标事件,通过预设行文规则定位所述源数据内含重要信息的关键段落。
[0112]
进一步的,所述将所述关键段落输入带有漂白语句的预设事件抽取模型,根据预先指定的事件类型和论元角色进行目标事件的事件抽取,确定对应的事件信息,包括:
[0113]
根据所述触发词确定对应的漂白语句,所述漂白语句包括:语义令牌以及包含位置信息的字典;
[0114]
依次从左到右对所述漂白语句中的每个占位符进行填充;
[0115]
根据预先指定的事件类型和论元角色进行目标事件的事件抽取,确定对应的所述事件信息。
[0116]
本技术是根据本技术实施例的方法、设备(系统)、计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0117]
在一个典型的配置中,设备包括一个或多个处理器(cpu)、存储器和总线。设备还可以包括输入/输出接口、网络接口等。
[0118]
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器 (ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram),存储器包括至少一个存储芯片。存储器是计算机可读介质的示例。
[0119]
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法
或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存 (pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器 (cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。
[0120]
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
[0121]
本领域技术人员应明白,本技术的实施例可提供为方法、系统或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、 cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0122]
以上仅为本技术的实施例而已,并不用于限制本技术。对于本领域技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本技术的权利要求范围之内。
技术特征:
1.一种外部风险事件提取方法,其特征在于,包括:获取源数据,并根据目标事件提取请求定位所述源数据内含重要信息的关键段落,所述关键段落中包含待提取的问题目标;对所述关键段落进行触发词的语义识别,确定所述关键段落中包含的触发词;当所述触发词为预设触发词时,则将所述关键段落输入带有漂白语句的预设事件抽取模型,根据预先指定的事件类型和论元角色进行目标事件的事件抽取,确定对应的事件信息。2.根据权利要求1所述的方法,其特征在于,还包括:根据预设风险事件的预警等级对所述事件信息进行风险预警。3.根据权利要求1所述的方法,其特征在于,所述根据目标事件提取请求定位所述源数据内含重要信息的关键段落,包括:获取所述目标事件提取请求,所述目标事件提取请求中包含目标事件;依据所述目标事件,通过预设行文规则定位所述源数据内含重要信息的关键段落。4.根据权利要求1所述的方法,其特征在于,所述将所述关键段落输入带有漂白语句的预设事件抽取模型,根据预先指定的事件类型和论元角色进行目标事件的事件抽取,确定对应的事件信息,包括:根据所述触发词确定对应的漂白语句,所述漂白语句包括:语义令牌以及包含位置信息的字典;依次从左到右对所述漂白语句中的每个占位符进行填充;根据预先指定的事件类型和论元角色进行目标事件的事件抽取,确定对应的所述事件信息。5.一种外部风险事件提取装置,其特征在于,包括:第一处理单元,用于获取源数据,并根据目标事件提取请求定位所述源数据内含重要信息的关键段落,所述关键段落中包含待提取的问题目标;第二处理单元,用于对所述关键段落进行触发词的语义识别,确定所述关键段落中包含的触发词;第三处理单元,用于当所述触发词为预设触发词时,则将所述关键段落输入带有漂白语句的预设事件抽取模型,根据预先指定的事件类型和论元角色进行目标事件的事件抽取,确定对应的事件信息。6.根据权利要求5所述的装置,其特征在于,还包括:第四处理单元,用于根据预设风险事件的预警等级对所述事件信息进行风险预警。7.根据权利要求5所述的装置,其特征在于,所述第一处理单元具体用于:获取所述目标事件提取请求,所述目标事件提取请求中包含目标事件;依据所述目标事件,通过预设行文规则定位所述源数据内含重要信息的关键段落。8.根据权利要求5所述的装置,其特征在于,所述第三处理单元具体用于:根据所述触发词确定对应的漂白语句,所述漂白语句包括:语义令牌以及包含位置信息的字典;依次从左到右对所述漂白语句中的每个占位符进行填充;根据预先指定的事件类型和论元角色进行目标事件的事件抽取,确定对应的所述事件
信息。9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在的设备执行如权利要求1至4中任一项所述的外部风险事件提取方法。10.一种电子设备,其特征在于,所述电子设备包括至少一个处理器、以及与所述处理器连接的至少一个存储器、总线;其中,所述处理器、所述存储器通过所述总线完成相互间的通信;所述处理器用于调用所述存储器中的程序指令,以执行如权利要求1至4中任一项所述的外部风险事件提取方法。
技术总结
本申请提供一种外部风险事件提取方法及装置,通过获取源数据,并根据目标事件提取请求定位所述源数据内含重要信息的关键段落,所述关键段落中包含待提取的问题目标;对所述关键段落进行触发词的语义识别,确定所述关键段落中包含的触发词;当所述触发词为预设触发词时,则将所述关键段落输入带有漂白语句的预设事件抽取模型,根据预先指定的事件类型和论元角色进行目标事件的事件抽取,确定对应的事件信息。本申请通过将自然语言信息转换成结构化数据,并将信息整理成统一格式的数据,以实现提高数据的可利用性和提升用户体验的目的。提高数据的可利用性和提升用户体验的目的。提高数据的可利用性和提升用户体验的目的。
技术研发人员:郝璐妍 赵诣 崔渊
受保护的技术使用者:上海金仕达软件科技有限公司
技术研发日:2021.08.25
技术公布日:2022/5/25
转载请注明原文地址:https://tc.8miu.com/read-12041.html