1.本技术涉及信息评价的领域,具体而言,涉及一种对信访件要素信息的抽取结果评价的方法及装置。
背景技术:
2.随着大数据和人工智能技术的发展,基于深度学习的文本分类与实体关系抽取模型得到了广泛应用,在信访件要素抽取任务上可以达到很高的准确率。
3.然而在相当多的业务场景下,例如,机器无法工作或者硬件资源不满足需要等,需要通过人工开展信访案件办理,进行信访件要素抽取,因此,需要对既往的人工信访案件办理进行质量评估审核工作。
4.因此,在人工办理信访案件之后,如何准确的对抽取要素进行评价,是一个需要解决的技术问题。
技术实现要素:
5.本技术实施例的目的在于提供对抽取要素评分的方法,通过本技术的实施例的技术方案可以达到准确的对人工抽取信访件的要素信息进行评价的效果。
6.第一方面,本技术实施例提供了一种对信访件要素信息的抽取结果评价的方法,包括,获取机器抽取信访件要素信息的第一要素集合和人工抽取信访件要素信息的第二要素集合;将第二要素集合中的每一要素信息和第一要素集合中对应的每一要素信息进行匹配,得到第二要素集合中每一要素信息的评分;基于第二要素集合中每一要素信息的评分,确定人工抽取信访件要素信息的评价结果。
7.在上述过程中,由于机器抽取信访件要素信息可以达到非常高的准确率,并且机器抽取的信访件要素信息具有统一的衡量标准,因此,本技术通过机器抽取信访件中的要素信息和人工抽取信访件中对应的每一要素信息的对比,并基于所有的要素的对比结果,对人工抽取的要素信息进行评估,本技术可以达到准确的对人工抽取信访件的要素信息进行评价的效果。
8.一种实施例中,信访件要素信息,包括以下要素信息中的至少一种:多分类要素信息、多级地址要素信息、姓名要素信息、证件号码要素信息、手机号码要素信息、多级多分类要素信息和信访概况要素信息。
9.在上述过程中,通过将信访件要素信息分成多种信息,基于多种要素信息将通过机器抽取信访件中的要素信息和人工抽取信访件要素信息来对比,能够更全面的得到机器抽取信访件中的要素信息和人工抽取信访件要素信息的对比结果,进而可以实现准确的对人工抽取的要素信息进行评价。
10.一种实施例中,信访件要素信息包括姓名要素信息、证件号码要素信息、手机号码要素信息、多分类要素信息、多级地址要素信息和多级多分类要素信息中的任一种时,将第二要素集合中的每一要素信息和第一要素集合中对应的每一要素信息进行匹配,得到第二
要素集合中每一要素信息的评分,包括:将第二要素集合中的每一要素信息和第一要素集合中对应的每一要素信息进行匹配,当第二要素集合中的任一要素信息和第一要素集合中对应的要素信息相同,对任一要素信息赋满分;当第二要素集合中的任一要素信息和第一要素集合中对应的要素信息不相同,对任一要素信息赋零分。
11.在上述过程中,通过两个不同抽取方法抽取到的要素信息的对比,相同就赋满分不相同就赋零分的方式,可以简单、准确的对人工抽取的姓名要素信息、证件号码要素信息、手机号码要素信息、多分类要素信息、多级地址要素信息和多级多分类要素信息进行评分。
12.一种实施例中,信访件要素信息为信访概况要素信息时,将第二要素集合中的每一要素信息和第一要素集合中对应的每一要素信息进行匹配,得到第二要素集合中每一要素信息的评分,包括:将第二要素集合中的信访概况要素信息和第一要素集合中对应的信访概况要素信息进行匹配,得到第二要素集合中的信访概况要素信息和第一要素集合中对应的信访概况要素信息的概况相似度;将所述概况相似度和第二要素集合中对应的信访概况要素信息的总分的乘积,作为第二要素集合中对应的信访概况要素信息的评分。
13.在上述过程中,对于像信访概况要素信息等内容描述型文本,可以通过两个文本的文本相似度确定两者的相似程度,最终可以根据总分并且利用此相似程度来为信访概况要素信息评分。
14.一种实施例中,将第二要素集合中的信访概况要素信息和第一要素集合中对应的信访概况要素信息进行匹配,得到第二要素集合中的信访概况要素信息和第一要素集合中对应的信访概况要素信息的相似度,包括:通过向量模型将第二要素集合中的信访概况要素信息和第一要素集合中对应的信访概况要素信息转化成向量,得到第二信访概况要素信息向量和第一信访概况要素信息向量;通过计算第二信访概况要素信息向量和第一信访概况要素信息向量的余弦相似度,得到第二要素集合中的信访概况要素信息和第一要素集合中对应的信访概况要素信息的相似度。
15.在上述过程中,判断两个不同抽取方法获得的要素信息的相似度,可以先将两者转化成向量,通过两个向量的余弦相似度判断两个要素信息的相似度的方法,用数据结果直观的体现两个要素信息的相似程度,更具准确性。
16.一种实施例中,基于第二要素集合中每一要素的评分,确定信访件要素信息的评价结果,包括:按照预设的规则为第二要素集合中的每一要素分配权重;将第二要素集合中的每一要素的权重和第二要素集合中每一要素的评分加权求和,得到人工抽取信访件要素信息的评价结果。
17.在上述过程中,给每一要素都分配好权重,可以在对人工抽取的要素评分时,得到
总的评价更准确。
18.一种实施例中,按照预设的规则为第二要素集合中的每一要素分配权重,包括:按照第二要素集合中要素信息的优先级由低到高的顺序对要素成倍递增的分配权重;或者按照第二要素集合中要素信息的位置由前到后的顺序对要素成倍递减的分配权重;或者将第二要素集合中的要素信息等权分配权重。
19.在上述过程中,根据每一要素的优先级和位置可以合理的为每一要素分配权重,或者没有上述规定时等权为每一要素分配权重,通过上述根据重要程度或者优先级顺序分配权重的方法可以使最终的评价结果更加准确。
20.一种实施例中,在将第一要素集合中的每一要素和第二要素集合中对应的每一要素进行匹配,得到第二要素集合中每一要素的评分之前,方法还包括:基于第二要素集合中每一要素的重要程度,确定第二要素集合中每一要素的满分评分。
21.在上述过程中,根据不同的要素信息对信访件的重要程度不同,为每一要素信息设置的最高分也是不同的,一般重要的要素信息的最高分也是比较高的,这样最终对整个信访件的评价也会更准确。
22.第二方面,本技术实施例提供了一种对信访件要素信息的抽取结果评价的装置,包括:获取模块,用于获取机器抽取信访件要素信息的第一要素集合和人工抽取信访件要素信息的第二要素集合;匹配模块,用于将第二要素集合中的每一要素信息和第一要素集合中对应的每一要素信息进行匹配,得到第二要素集合中每一要素信息的评分;确定模块,用于匹配模块,用于基于第二要素集合中每一要素信息的评分,确定人工抽取信访件要素信息的评价结果。
23.可选的,信访件要素信息,包括以下要素信息中的至少一种:多分类要素信息、多级地址要素信息、姓名要素信息、证件号码要素信息、手机号码要素信息、多级多分类要素信息和信访概况要素信息。
24.可选的,匹配模块具体用于:信访件要素信息包括姓名要素信息、证件号码要素信息、手机号码要素信息、多分类要素信息、多级地址要素信息和多级多分类要素信息中的任一种时,将第二要素集合中的每一要素信息和第一要素集合中对应的每一要素信息进行匹配,当第二要素集合中的任一要素信息和第一要素集合中对应的要素信息相同,对任一要素信息赋满分;当第二要素集合中的任一要素信息和第一要素集合中对应的要素信息不相同,对任一要素信息赋零分。
25.可选的,匹配模块具体用于:信访件要素信息为信访概况要素信息时,将第二要素集合中的信访概况要素信息
和第一要素集合中对应的信访概况要素信息进行匹配,得到第二要素集合中的信访概况要素信息和第一要素集合中对应的信访概况要素信息的相似度;将第二要素集合中的信访概况要素信息和第一要素集合中对应的信访概况要素信息的相似度和第二要素集合中对应的信访概况要素信息的总分的乘积,作为第二要素集合中对应的信访概况要素信息的评分。
26.可选的,匹配模块具体用于:通过向量模型将第二要素集合中的信访概况要素信息和第一要素集合中对应的信访概况要素信息转化成向量,得到第二信访概况要素信息向量和第一信访概况要素信息向量;通过计算第二信访概况要素信息向量和第一信访概况要素信息向量的余弦相似度,得到第二要素集合中的信访概况要素信息和第一要素集合中对应的信访概况要素信息的相似度。
27.可选的,确定模块具体用于:按照预设的规则为第二要素集合中的每一要素分配权重;将第二要素集合中的每一要素的权重和第二要素集合中每一要素的评分加权求和,得到人工抽取信访件要素信息的评价结果。
28.可选的,确定模块具体用于:按照第二要素集合中要素的优先级由低到高的顺序对要素成倍递增的分配权重;或者按照第二要素集合中要素的位置由前到后的顺序对要素成倍递减的分配权重;或者将第二要素集合中的要素等权分配权重。
29.可选的,所述装置还包括:第二确定模块,用于所述匹配模块在将第一要素集合中的每一要素和第二要素集合中对应的每一要素进行匹配,得到第二要素集合中每一要素的评分之前,基于第二要素集合中每一要素的重要程度,确定第二要素集合中每一要素的满分评分。
30.第三方面,本技术实施例提供一种电子设备,包括处理器以及存储器,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,运行如上述第一方面提供的所述方法中的步骤。
31.第四方面,本技术实施例提供一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时运行如上述第一方面提供的所述方法中的步骤。
32.本技术的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本技术实施例了解。本技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
33.为了更清楚地说明本技术实施例的技术方案,下面将对本技术实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以
根据这些附图获得其他相关的附图。
34.图1为本技术实施例提供的一种对信访件要素信息的抽取结果评价的方法的流程图;图2为本技术实施例提供的一种对信访件要素信息的抽取结果赋分的方法的流程图;图3为本技术实施例提供的又一种对信访件要素信息的抽取结果赋分的方法的流程图;图4为本技术实施例提供的一种对信访件要素信息通过不同的抽取方式抽取的结果计算相似度的方法的流程图;图5为本技术实施例提供的又一种对信访件要素信息的抽取结果评价的方法的流程图;图6为本技术实施例提供的一种对信访件要素信息的抽取结果分配权重的方法的流程图;图7为本技术实施例提供的一种对信访件要素信息的抽取结果评价的方法的详细实施示意图;图8为本技术实施例提供的一种对信访件要素信息的抽取结果评价的装置的示意框图;图9为本技术实施例提供的一种对信访件要素信息的抽取结果评价的装置的结构示意图。
具体实施方式
35.下面将结合本技术实施例中附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和显示出的本技术实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本技术的实施例的详细描述并非旨在限制要求保护的本技术的范围,而是仅仅表示本技术的选定实施例。基于本技术的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本技术保护的范围。
36.应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本技术的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
37.首先对本技术实施例中涉及的部分用语进行说明,以便于本领域技术人员理解。
38.终端设备:可以是移动终端、固定终端或便携式终端,例如移动手机、站点、单元、设备、多媒体计算机、多媒体平板、互联网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、个人通信系统设备、个人导航设备、个人数字助理、音频/视频播放器、数码相机/摄像机、定位设备、电视接收器、无线电广播接收器、电子书设备、游戏设备或者其任意组合,包括这些设备的配件和外设或者其任意组合。还可预见到的是,终端设备能够支持任意类型的针对用户的接口(例如可穿戴设备)等。
39.服务器:可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通
信、中间件服务、域名服务、安全服务以及大数据和人工智能平台等基础云计算服务的云服务器。
40.正则表达式:作为计算机科学领域一种常见的文本匹配工具,在提供有效模版的前提下,可以用来检索、替换符合某个模式(规则)的文本。elasticsearch(搜索服务器)作为常用的检索工具,也同样可以实现文本匹配任务。
41.结巴分词:结巴分词作为最常用的中文分词工具,可以在极快的速度下完成分词并达到相当高的准确率,在实时性和准确率上达到十分好的均衡。结巴分词还可以通过用户增添词典来对指定词语增加权重,使其更易作为成词出现在分词结果中。
42.word2vec(词向量模型):是一种用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。网络以词表现,并且需猜测相邻位置的输入词,在word2vec中词袋模型假设下,词的顺序是不重要的。训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系,该向量为神经网络之隐藏层。
43.本技术应用于文本相似度匹配的场景,具体场景为,在大量信访案件的处理过程中,存在内存不足或者机器损坏等情况,需要人工对信访案件的处理,为此可以通过事后将人工对信访案件抽取的要素信息与机器对该信访案件抽取的要素信息进行对比,来完成对人工抽取的要素信息的评价。
44.本技术对人工处理信访件的评估并做出统一化的标准,可以有效提升各级政府有关部门人工处理信访件的效率。
45.但是在目前相当多的业务场景下,需要通过人工开展信访案件办理,进行信访件要素抽取,加之需要对既往的人工信访案件办理进行质量评估审核工作,因此如何在事后对人工信访案件办理开展质量评估工作成为一个有挑战性的任务。
46.为此本技术通过获取机器抽取信访件要素信息的第一要素集合和人工抽取信访件要素信息的第二要素集合;将第二要素集合中的每一要素信息和第一要素集合中对应的每一要素信息进行匹配,得到第二要素集合中每一要素信息的评分;基于第二要素集合中每一要素信息的评分,确定人工抽取信访件要素信息的评价结果。在上述过程中,由于机器抽取信访件要素信息可以达到非常高的准确率,并且机器抽取的信访件要素信息具有统一的衡量标准,因此,本技术通过机器抽取信访件中的要素信息和人工抽取信访件中对应的每一要素信息的对比,并基于所有的要素的对比结果,对人工抽取的要素信息进行评估,本技术可以达到准确的对人工抽取信访件的要素信息进行评价的效果。
47.本技术实施例中,执行主体可以为评估系统中对信访件要素信息的抽取结果评价的设备,实际应用中,对信访件要素信息的抽取结果评价的设备可以为终端设备和服务器设备等电子设备,在此不做限制。
48.下面结合图1对本技术实施例的对信访件要素信息的抽取结果评价的方法进行详细描述。
49.请参看图1,图1为本技术实施例提供的一种对信访件要素信息的抽取结果评价的方法的流程图,如图1所示的对信访件要素信息的抽取结果评价的方法包括:步骤110:获取机器抽取信访件要素信息的第一要素集合和人工抽取信访件要素信息的第二要素集合。
50.在上述过程中,获取机器抽取信访件要素信息的第一要素集合用于对人工抽取信访件要素信息的第二要素集合进行评价。
51.其中,机器一般为带有抽取要素信息模型的机器。第二要素集合中的每一要素信息都与第一要素集合中的其中一个要素信息相对应。抽取模型的抽取任务可以达到95%以上的准确率,因此,模型抽取的信访件要素信息可以很好的作为人工抽取信访件要素信息的评价标准。
52.具体的,信访件要素信息,包括以下要素信息中的至少一种:多分类要素信息、多级地址要素信息、姓名要素信息、证件号码要素信息、手机号码要素信息、多级多分类要素信息和信访概况要素信息。
53.在上述过程中,通过将信访件要素信息分成多种信息,基于多种要素信息将通过机器抽取信访件中的要素信息和人工抽取信访件要素信息来对比,能够更全面的得到机器抽取信访件中的要素信息和人工抽取信访件要素信息的对比结果,进而可以实现准确的对人工抽取的要素信息进行评价。
54.其中,多分类要素信息包括多分类要素信息(信访人证件类型和信访目的等)和二分类要素信息(涉法涉诉和是否扬言等);多级地址要素信息包括信访人住址、信访人详细地址和问题属地等;姓名要素信息包括信访人姓名和受访人姓名等;证件号码要素信息包括信访人证件号码;手机号码要素信息包括信访人手机号码;多级多分类要素信息包括内容分类;信访概况要素信息包括信访件概况要素信息等,此外,凡是有关信访件要素信息有关的内容都属于本技术要抽取的要素信息,本技术不限于此。
55.步骤120:将第二要素集合中的每一要素信息和第一要素集合中对应的每一要素信息进行匹配,得到第二要素集合中每一要素信息的评分。
56.在上述过程中,通过对应要素信息的匹配,准确的为第二要素集合中每一要素信息的评分。
57.其中,匹配的方式可以是文本匹配,也可以是相似度匹配等方式。在上述过程中,若人工抽取要素的数量小于机器抽取要素的数量时,直接对人工没有抽取的要素赋0分,若人工抽取的要素信息大于机器抽取的要素信息,并且信访件要素信息的总数量和机器抽取的数量相同,例如,只有两个手机号码要素信息,机器抽取的要素信息也是两个,而人工抽取了三个手机号码要素信息,则对人工多抽取的要素信息也赋0分,其中,一般对于证件号和姓名等要素信息进行的人工抽取会出现多抽的情况。
58.具体的,在执行步骤120之前,还可以采用以下步骤:基于第二要素集合中每一要素的重要程度,确定第二要素集合中每一要素的满分评分。
59.在上述过程中,根据不同的要素信息对信访件的重要程度不同,为每一要素信息设置的最高分也是不同的,一般重要的要素信息的最高分也是比较高的,这样最终对整个信访件的评价也会更准确。
60.其中,满分评分,为要素信息评价的最高分,也是人为设置的最高分。重要程度代表不同的要素信息对信访件的重要程度,例如,信访件的摘要部分概括了整个信访件的整体内容,可以作为最重要的一部分信息。
61.具体的,信访件要素信息包括姓名要素信息、证件号码要素信息、手机号码要素信
息、多分类要素信息、多级地址要素信息和多级多分类要素信息中的任一种时,在执行步骤120时,可以采用图2所示的步骤。
62.请参看图2,图2为本技术实施例提供的一种对信访件要素信息的抽取结果赋分的方法的流程图,如图2所示的对信访件要素信息的抽取结果赋分的方法包括:步骤121:将第二要素集合中的每一要素信息和第一要素集合中对应的每一要素信息进行匹配,当第二要素集合中的任一要素信息和第一要素集合中对应的要素信息相同,对任一要素信息赋满分。
63.步骤122:当第二要素集合中的任一要素信息和第一要素集合中对应的要素信息不相同,对任一要素信息赋零分。
64.在上述过程中,通过两个不同抽取方法抽取到的要素信息的对比,相同就赋满分不相同就赋零分的方式,可以简单、准确的对人工抽取的姓名要素信息、证件号码要素信息、手机号码要素信息、多分类要素信息、多级地址要素信息和多级多分类要素信息进行评分。
65.其中,上述可以借助正则表达式来完成文本的匹配,匹配结果显示完全一样赋满分,不完全一样则赋零分,也可以通过相似度匹配的方式完成要素信息的匹配,相似度为100%赋满分,相似度小于100%赋零分。
66.具体的,信访件要素信息为信访概况要素信息时,在执行步骤120时,还可以采用图3所示的步骤。
67.请参看图3,图3为本技术实施例提供的又一种对信访件要素信息的抽取结果赋分的方法的流程图,如图3所示的对信访件要素信息的抽取结果赋分的方法包括:步骤1201:将第二要素集合中的信访概况要素信息和第一要素集合中对应的信访概况要素信息进行匹配,得到第二要素集合中的信访概况要素信息和第一要素集合中对应的信访概况要素信息的概况相似度。
68.步骤1202:将概况相似度和第二要素集合中对应的信访概况要素信息的总分的乘积,作为第二要素集合中对应的信访概况要素信息的评分。
69.在上述过程中,对于像信访概况要素信息等内容描述型文本,可以通过两个文本的文本相似度确定两者的相似程度,最终可以根据总分并且利用此相似程度来为信访概况要素信息评分。
70.其中,信访概况要素信息的总分,可以根据需求自行设定,信访概况要素信息的评分计算方法例如,第二要素集合中的信访概况要素信息和第一要素集合中对应的信访概况要素信息的相似度为70%,总分为100分,则信访概况要素信息的评分为70分。文本相似度的计算方法还可以先将文本进行细粒度切分,然后将每一特征进行特征构建,最后根据特征构建完成相似度的度量,其中,常见的细粒度切分包括:原始字符串、n-gram(多元组)、词语、句法分析结果、主题模型等,常见的相似度度量方法包括:最小编辑距离、词移距离、欧氏距离、余弦距离、杰卡德相似度和海明距离等,常见的特征构建方法包括:tf-idf(特征提取)、bm25(相似度算法)、词向量、句向量和simhash(查重算法)等。
71.具体的,在执行步骤1201时,还可以采用图4所示的步骤。
72.请参看图4,图4为本技术实施例提供的一种对信访件要素信息通过不同的抽取方式抽取的结果计算相似度的方法的流程图,如图4所示的对信访件要素信息通过不同的抽
取方式抽取的结果计算相似度的方法包括:步骤12011:通过向量模型将第二要素集合中的信访概况要素信息和第一要素集合中对应的信访概况要素信息转化成向量,得到第二信访概况要素信息向量和第一信访概况要素信息向量。
73.步骤12012:通过计算第二信访概况要素信息向量和第一信访概况要素信息向量的余弦相似度,得到第二要素集合中的信访概况要素信息和第一要素集合中对应的信访概况要素信息的相似度。
74.在上述过程中,判断两个不同抽取方法获得的要素信息的相似度,可以先将两者转化成向量,通过两个向量的余弦相似度判断两个要素信息的相似度的方法,用数据结果直观的体现两个要素信息的相似程度,更具准确性。
75.其中,可以通过word2vec模型,将信访概况要素信息分词后得到的词语通过word2vec模型得到每个词语的向量表示,并将信访概况要素信息中所有词语的向量聚合即可得到信访概况要素信息的向量。此外,通过bert-avg(匹配模型)也可以直接拿roberta(预训练模型)来获取信访概况要素信息的向量,预训练模型可利用基础模型中的dropout mask(丢弃遮挡方法),对每一个信访概况要素信息进行两次前向传播,得到两个不同的信访概况要素信息的向量,将同一个信访概况要素信息通过模型得到的向量对作为正样本对,对于每一个信访概况要素信息的向量,选取其他信访概况要素信息产生的向量作为负样本,以此来训练模型。
76.在比较两个不同信访概况要素信息时,通过句向量模型生成句向量,但由于各向异性,效果并不好,为此,通过bert
‑ꢀ
whitening(语义相似检索工具)可以取得标准正交基表示的信访概况要素信息的向量,还可以利用bert-flow(向量变换模型)通过normalizing flows(标准化流)将bert(语言表征)信访概况要素信息的向量转换到高斯分布,用于缓解各向异性,sbert(语义相似度模型)通过bi-encoder(双塔模型)来进行fine-tuning(微调)以获取更好的信访概况要素信息的向量表示。
77.此外,本技术采用simcse(无监督对比学习)方法来对比向量差异,其具有无监督模式和有监督模式两种,无监督模式依赖dropout生成语义相近的句子来进行训练,有监督模式需要构造相应数据集,simcse核心思想为对比学习,目标是可以对比两个信访概况要素信息的向量的差异。
78.步骤130:基于第二要素集合中每一要素信息的评分,确定人工抽取信访件要素信息的评价结果。
79.在上述过程中,通过第二要素集合中每一要素信息的评分,可以准确的为整个信访件人工抽取要素信息做出评价。
80.具体的,在执行步骤130时,可以采用图5所示的步骤。
81.请参看图5,图5为本技术实施例提供的又一种对信访件要素信息的抽取结果的方法的流程图,如图5所示的对信访件要素信息的抽取结果评价的方法包括:步骤131:按照预设的规则为第二要素集合中的每一要素分配权重。
82.步骤132:将第二要素集合中的每一要素的权重和第二要素集合中每一要素的评分加权求和,得到人工抽取信访件要素信息的评价结果。
83.在上述过程中,给每一要素都分配好权重,可以在对人工抽取的要素评分时,得到
总的评价更准确。
84.具体的,在执行步骤131时,还可以采用图6所示的步骤:请参看图6,图6为本技术实施例提供的一种对信访件要素信息的抽取结果分配权重的方法的流程图,如图6所示的对信访件要素信息的抽取结果分配权重的方法包括:步骤1311:按照第二要素集合中要素信息的优先级由低到高的顺序对要素成倍递增的分配权重。
85.步骤1312:或者按照第二要素集合中要素信息的位置由前到后的顺序对要素成倍递减的分配权重。
86.步骤1313:或者将第二要素集合中的要素信息等权分配权重。
87.在上述过程中,根据每一要素的优先级和位置可以合理的为每一要素分配权重,或者没有上述规定时等权为每一要素分配权重,通过上述根据重要程度或者优先级顺序分配权重的方法可以使最终的评价结果更加准确。
88.其中,优先级顺序可以是根据要素信息中多级内容中的优先级,也可以是根据重要程度确定的优先级,还可以是出现的先后顺序确定的优先级等。
89.本技术通过获取机器抽取信访件要素信息的第一要素集合和人工抽取信访件要素信息的第二要素集合;将第二要素集合中的每一要素信息和第一要素集合中对应的每一要素信息进行匹配,得到第二要素集合中每一要素信息的评分;基于第二要素集合中每一要素信息的评分,确定人工抽取信访件要素信息的评价结果。通过本技术的方法可以达到准确的对人工抽取信访件的要素信息进行评价的效果。
90.下面通过具体实施方式对信访件要素信息的抽取结果评价的方法进行详细描述。
91.请参照图7,图7为本技术实施例提供的一种对信访件要素信息的抽取结果评价的方法的详细实施示意图。
92.本实施例用于模型抽取的要素信息为评估标准,对人工抽取要素信息进行评估。
93.其中,信访件人工抽取要素信息和机器抽取要素信息包括,多分类要素信息、多级地址要素信息、姓名要素信息、证件号码要素信息、手机号码要素信息、多级多分类要素信息和信访概况要素信息等要素信息中的至少一种,模型抽取要素结果的方法包括,是否相等匹配、多级分类匹配、地址匹配、多内容匹配和文本相似度匹配等。
94.在本实施例中,对信访案件办理质量评估时,从信访件中人工抽取要素信息和模型抽取要素信息的结果为:信访人数、信访人姓名、信访人手机号码、信访人证件类型、信访人证件号码、受信人姓名、信访目的、涉法涉诉、是否扬言、内容分类、信访人住址、信访人详细地址、问题属地、信访件概况信息共14种要素。
95.其中,信访人对象要素信息共有信访人姓名、信访人手机号码、信访人证件类型、信访人证件号码、信访人住址和信访人详细地址;多分类要素信息共有信访人证件类型和信访目的;二分类要素信息共有涉法涉诉和是否;多级地址信息共有信访人住址、信访人详细地址和问题属地;三级多分类要素信息为内容分类。
96.一种实施例中,对于人工抽取信访人对象要素信息中的信访人姓名、信访人手机号码、信访人证件类型和信访人证件号码等要素信息可以等权重赋分,例如,赋分时每一要素信息的最高得分可以设置为100分,通过是否相等匹配的方法来为人工抽取信访人对象要素信息中的信访人姓名、信访人手机号码、信访人证件类型和信访人证件号码进行评分,
例如,通过模型抽取信访人手机号码和对应的人工抽取信访人手机号码并进行相似度匹配,相似度为100%则对人工抽取的信访人手机号码这项信息赋100分,相似度不是100%则对人工抽取的信访人手机号码这项信息赋0分。此外,通过是否相等匹配的方法同样也可以为信访目的、涉法涉诉、是否扬言和受信人姓名进行赋分。
97.一种实施例中,通过地址匹配的方式对于人工抽取的多级地址要素信息中的每一要素信息评分之前,可以根据地名词库构建地名词字典,将名词字典添加到分词工具中,例如,结巴分词工具。之后可以对抽取的多级地址信息进行准确的分词,然后对分词后的地址名称进行等权重赋分或者通过分词工具增加分词后某一地址的权重,例如,北京市海淀区通过分词工具分词后为北京市和海淀区两个地名词,然后直接通过和我国的行政区域划分规则中的地址进行地址匹配的方式给人工抽取的多级地址信息中的每一要素信息进行等权重赋分或者其中地址在字典中重要程度较高也可以增加其权重,例如,北京市和海淀区两个地名词满分共100分,每一个地名词对应满分为50分,地名词正确赋50分,错误则赋0分,或者增加北京市的权重,则北京市这个词满分为60分,则地名词的满分可以设为40分,同理,地名词正确赋满分,错误则赋0分,全部名词得分之和作为该地址的总分。
98.其中,行政区域划分如下:一级省级行政区包括:省、自治区、直辖市和特别行政区;二级地级行政区包括:地级市、地区、自治州和盟;三级县级行政区包括:市辖区、县级市、县、自治县、旗、自治旗、特区和林区;四级乡级行政区包括:街道、镇、乡、民族乡、苏木、民族苏木和县辖区。因此,在进行地址匹配时,可以通过更细化的行政区域规则完成每一地址要素信息的匹配。
99.一种实施例中,对于人工抽取的受信人要素信息评分,根据受访件的提出顺序为受访人进行排序,从第一个受信人姓名开始权重对半递减,并通过是否相等匹配的方法赋分。
100.一种实施例中,通过多内容匹配和多级分类匹配的方式对于人工抽取的三级多分类要素信息评分时,在分配权重时,从第一级开始分配的权重成倍递增,并通过是否相等匹配的方法为每一级都进行赋分,三级相加得分作为该三级多分类要素信息的总分,但是只有前一级正确的情况下才可以对下一级赋分,若前一级赋0分,则后面的内容即使正确也赋0分。
101.一种实施例中,通过文本相似度匹配的方式对人工抽取的信访件概况要素信息进行评分,通常比较的是人工抽取的信访件摘要和模型抽取的信访件摘要。将通过两个方式抽取得到的两个摘要转化成对应的向量,通过计算两个向量的余弦相似度的方式计算两个抽取方式得到的摘要的相似度,通过相似度结果为人工抽取的信访件概况要素信息进行等比例评分,例如,相似度为50%,满分为100分,则对人工抽取的信访件概况要素信息赋50分,相似度为0或者0以下赋0分。
102.一种实施例中,将信访人数、信访人姓名、信访人手机号码、信访人证件类型、信访人证件号码、受信人姓名、信访目的、涉法涉诉、是否扬言、内容分类、信访人住址、信访人详细地址、问题属地和信访件概况信息共14种要素信息分为8个部分,其中,信访人姓名、信访人手机号码、信访人证件类型、信访人证件号码、信访人住址和信访人详细地址为一个部分,信访人数不计入分数,其余要素信息各为一部分,通过这8个部分等权重赋分,并进行赋分加权得到最终得分,即可完成对信访件要素信息的抽取结果的评价。
103.前文通过图1-图7描述了对信访件要素信息的抽取结果评价的方法,下面结合图8-图9描述对信访件要素信息的抽取结果评价的装置。
104.请参照图8,为本技术实施例中提供的一种对信访件要素信息的抽取结果评价的装置800的示意框图,该装置800可以是电子设备上的模块、程序段或代码。该装置800与上述图1方法实施例对应,能够执行图1方法实施例涉及的各个步骤,该装置800具体的功能可以参见下文中的描述,为避免重复,此处适当省略详细描述。
105.可选的,所述装置800包括:获取模块810,用于获取机器抽取信访件要素信息的第一要素集合和人工抽取信访件要素信息的第二要素集合;匹配模块820,用于将第二要素集合中的每一要素信息和第一要素集合中对应的每一要素信息进行匹配,得到第二要素集合中每一要素信息的评分;确定模块830,用于匹配模块,用于基于第二要素集合中每一要素信息的评分,确定人工抽取信访件要素信息的评价结果。
106.可选的,信访件要素信息,包括以下要素信息中的至少一种:多分类要素信息、多级地址要素信息、姓名要素信息、证件号码要素信息、手机号码要素信息、多级多分类要素信息和信访概况要素信息。
107.可选的,匹配模块具体用于:信访件要素信息包括姓名要素信息、证件号码要素信息、手机号码要素信息、多分类要素信息、多级地址要素信息和多级多分类要素信息中的任一种时,将第二要素集合中的每一要素信息和第一要素集合中对应的每一要素信息进行匹配,当第二要素集合中的任一要素信息和第一要素集合中对应的要素信息相同,对任一要素信息赋满分;当第二要素集合中的任一要素信息和第一要素集合中对应的要素信息不相同,对任一要素信息赋零分。
108.可选的,匹配模块具体用于:信访件要素信息为信访概况要素信息时,将第二要素集合中的信访概况要素信息和第一要素集合中对应的信访概况要素信息进行匹配,得到第二要素集合中的信访概况要素信息和第一要素集合中对应的信访概况要素信息的概况相似度;将概况相似度和第二要素集合中对应的信访概况要素信息的总分的乘积,作为第二要素集合中对应的信访概况要素信息的评分。
109.可选的,匹配模块具体用于:通过向量模型将第二要素集合中的信访概况要素信息和第一要素集合中对应的信访概况要素信息转化成向量,得到第二信访概况要素信息向量和第一信访概况要素信息向量;通过计算第二信访概况要素信息向量和第一信访概况要素信息向量的余弦相似度,得到第二要素集合中的信访概况要素信息和第一要素集合中对应的信访概况要素信息的相似度。
110.可选的,确定模块具体用于:按照预设的规则为第二要素集合中的每一要素分配权重;将第二要素集合中的每一要素的权重和第二要素集合中每一要素的评分加权求
和,得到人工抽取信访件要素信息的评价结果。
111.可选的,确定模块具体用于:按照第二要素集合中要素信息的优先级由低到高的顺序对要素成倍递增的分配权重;或者按照第二要素集合中要素信息的位置由前到后的顺序对要素成倍递减的分配权重;或者将第二要素集合中的要素信息等权分配权重。
112.可选的,所述装置还包括:第二确定模块,用于所述匹配模块在将第一要素集合中的每一要素和第二要素集合中对应的每一要素进行匹配,得到第二要素集合中每一要素的评分之前,基于第二要素集合中每一要素的重要程度,确定第二要素集合中每一要素的满分评分。
113.请参照图9为本技术实施例中提供的一种对信访件要素信息的抽取结果评价的装置900的结构示意框图,该装置可以包括存储器910和处理器920。可选的,该装置还可以包括:通信接口930和通信总线940。该装置与上述图1方法实施例对应,能够执行图1方法实施例涉及的各个步骤,该装置具体的功能可以参见下文中的描述。
114.具体的,存储器910,用于存储计算机可读指令。
115.处理器920,用于处理存储器存储的可读指令,能够执行图1方法实施例110至130各个步骤。
116.通信接口930,用于与其他节点设备进行信令或数据的通信。例如:用于与服务器或者终端的通信,或者与其它设备节点进行通信,本技术实施例并不限于此。
117.通信总线940,用于实现上述组件直接的连接通信。
118.其中,本技术实施例中设备的通信接口930用于与其他节点设备进行信令或数据的通信。存储器910可以是高速ram存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器910可选的还可以是至少一个位于远离前述处理器的存储装置。存储器910中存储有计算机可读取指令,当所述计算机可读取指令由所述处理器920执行时,电子设备执行上述图1所示方法过程。处理器920可以用于装置800上,并且用于执行本技术中的功能。示例性地,上述的处理器920可以是通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现成可编程门阵列(field programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,本技术实施例并不局限于此。
119.本技术实施例还提供一种可读存储介质,所述计算机程序被处理器执行时,执行如图1所示方法实施例中电子设备所执行的方法过程。
120.所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法中的对应过程,在此不再过多赘述。
121.综上所述,本技术实施例提供一种对信访件要素信息的抽取结果评价的方法、装置、电子设备和可读存储介质,该方法包括,获取机器抽取信访件要素信息的第一要素集合
和人工抽取信访件要素信息的第二要素集合;将第二要素集合中的每一要素信息和第一要素集合中对应的每一要素信息进行匹配,得到第二要素集合中每一要素信息的评分;基于第二要素集合中每一要素信息的评分,确定人工抽取信访件要素信息的评价结果。通过本技术的方法可以达到准确的对人工抽取信访件的要素信息进行评价的效果。
122.在本技术所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本技术的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
123.另外,在本技术各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
124.所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
125.以上所述仅为本技术的实施例而已,并不用于限制本技术的保护范围,对于本领域的技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
126.以上所述,仅为本技术的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应所述以权利要求的保护范围为准。
127.需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
技术特征:
1.一种对信访件要素信息的抽取结果评价的方法,其特征在于,包括:获取机器抽取信访件要素信息的第一要素集合和人工抽取所述信访件要素信息的第二要素集合;将所述第二要素集合中的每一要素信息和所述第一要素集合中对应的每一要素信息进行匹配,得到所述第二要素集合中每一要素信息的评分;基于所述第二要素集合中每一要素信息的评分,确定人工抽取所述信访件要素信息的评价结果。2.根据权利要求1所述的方法,其特征在于,所述信访件要素信息,包括以下要素信息中的至少一种:多分类要素信息、多级地址要素信息、姓名要素信息、证件号码要素信息、手机号码要素信息、多级多分类要素信息和信访概况要素信息。3.根据权利要求2所述的方法,其特征在于,所述信访件要素信息包括所述姓名要素信息、所述证件号码要素信息、所述手机号码要素信息、所述多分类要素信息、所述多级地址要素信息和所述多级多分类要素信息中的任一种时,所述将所述第二要素集合中的每一要素信息和所述第一要素集合中对应的每一要素信息进行匹配,得到所述第二要素集合中每一要素信息的评分,包括:将所述第二要素集合中的每一要素信息和所述第一要素集合中对应的每一要素信息进行匹配,当所述第二要素集合中的任一要素信息和所述第一要素集合中对应的要素信息相同,对所述任一要素信息赋满分;当所述第二要素集合中的任一要素信息和所述第一要素集合中对应的要素信息不相同,对所述任一要素信息赋零分。4.根据权利要求2所述的方法,其特征在于,所述信访件要素信息为所述信访概况要素信息时,所述将所述第二要素集合中的每一要素信息和所述第一要素集合中对应的每一要素信息进行匹配,得到所述第二要素集合中每一要素信息的评分,包括:将所述第二要素集合中的信访概况要素信息和所述第一要素集合中对应的信访概况要素信息进行匹配,得到所述第二要素集合中的信访概况要素信息和所述第一要素集合中对应的信访概况要素信息的概况相似度;将所述概况相似度和所述第二要素集合中对应的信访概况要素信息的总分的乘积,作为所述第二要素集合中对应的所述信访概况要素信息的评分。5.根据权利要求4所述的方法,其特征在于,所述将所述第二要素集合中的信访概况要素信息和所述第一要素集合中对应的信访概况要素信息进行匹配,得到所述第二要素集合中的信访概况要素信息和所述第一要素集合中对应的信访概况要素信息的概况相似度,包括:通过向量模型将所述第二要素集合中的信访概况要素信息和所述第一要素集合中对应的信访概况要素信息转化成向量,得到第二信访概况要素信息向量和第一信访概况要素信息向量;通过计算所述第二信访概况要素信息向量和所述第一信访概况要素信息向量的余弦相似度,得到所述第二要素集合中的信访概况要素信息和所述第一要素集合中对应的信访概况要素信息的概况相似度。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述基于所述第二要素集合中每一要素信息的评分,确定人工抽取所述信访件要素信息的评价结果,包括:按照预设的规则为所述第二要素集合中的每一要素分配权重;将所述第二要素集合中的每一要素的权重和所述第二要素集合中每一要素的评分加权求和,得到所述人工抽取所述信访件要素信息的评价结果。7.根据权利要求6所述的方法, 其特征在于,所述按照预设的规则为所述第二要素集合中的每一要素分配权重,包括:按照所述第二要素集合中的每一要素信息的优先级由低到高的顺序对要素成倍递增的分配权重;或者按照所述第二要素集合中的每一要素信息的位置由前到后的顺序对要素成倍递减的分配权重;或者将所述第二要素集合中的每一要素信息等权分配权重。8.根据权利要求1-5任一项所述的方法,其特征在于,在所述将所述第二要素集合中的每一要素信息和所述第一要素集合中对应的每一要素信息进行匹配,得到所述第二要素集合中每一要素信息的评分之前,所述方法还包括:基于所述第二要素集合中每一要素的重要程度,确定所述第二要素集合中每一要素的满分评分。9.一种对信访件要素信息的抽取结果评价的装置,其特征在于,包括:获取模块,用于获取机器抽取信访件要素信息的第一要素集合和人工抽取所述信访件要素信息的第二要素集合;匹配模块,用于将所述第二要素集合中的每一要素信息和所述第一要素集合中对应的每一要素信息进行匹配,得到所述第二要素集合中每一要素信息的评分;确定模块,用于匹配模块,用于基于所述第二要素集合中每一要素信息的评分,确定人工抽取所述信访件要素信息的评价结果。10.一种对信访件要素信息的抽取结果评价的设备,其特征在于,包括:存储器和处理器,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,运行如权利要求1-8中任一项所述方法中的步骤。11.一种计算机可读存储介质,其特征在于,包括:计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行如权利要求1-8中任一项所述的方法。
技术总结
本申请提供一种对信访件要素信息的抽取结果评价的方法及装置,该方法包括,获取机器抽取信访件要素信息的第一要素集合和人工抽取信访件要素信息的第二要素集合;将第二要素集合中的每一要素信息和第一要素集合中对应的每一要素信息进行匹配,得到第二要素集合中每一要素信息的评分;基于第二要素集合中每一要素信息的评分,确定人工抽取信访件要素信息的评价结果。通过本申请的方法可以达到准确的对人工抽取信访件的要素信息进行评价的效果。对人工抽取信访件的要素信息进行评价的效果。对人工抽取信访件的要素信息进行评价的效果。
技术研发人员:陈一朴 宋琪 韦崟屹 吴展环 冀相冰
受保护的技术使用者:北京北大软件工程股份有限公司
技术研发日:2022.04.18
技术公布日:2022/5/25
转载请注明原文地址:https://tc.8miu.com/read-10043.html