本技术涉及大数据文本处理,具体涉及一种非结构化文本类信息融合方法及装置。
背景技术:
1、在科技突飞猛进的大时代背景下,数据信息的提取、深加工、分析以及应用,变得亦发重要。文本信息也是数据信息的一部分,文本信息的应用场景极其广泛,涵盖多个领域,其中包括专利领域、法律文件领域等,文本对此类信息的描述具有绝对的优势。因此对文本信息的价值挖掘也显得尤为重要。
2、文本信息的处理加工不同与传统的数据信息处理加工。文本信息的提取,需要很多的人力介入,需要业务人员和开发人员配合梳理文本信息特质,开发人员通过特质进行文本信息的识别,进而将数据入库,再对不同数据源的文本数据进行多源融合。最终将融合后的数据加以应用。
3、常见的数据融合方案,是多源异构数据融合的思路,此方式只适用于将简单的非结构数据和结构化数据进行多源融合。一旦遇到类似于xml、txt、pdf、图片形式(拍照)等无固定格式存储的文本信息,会有诸多难点,一个是数据入库难:传统方式的文本信息入库会先进行标准化,但是对于复杂的文本信息没有标准化规则,规则负责的文本信息的标准化会丢失大量数据,难以保证数据的完整性。一个是数据融合难:入库后的数据,因为数据源的多样性,导致每个数据源没有可共用的标准化主键进行关联,难以对多个文本源的信息进行粒度对齐,并产生有效关联性。
4、现有的技术通过数据采集、数据清洗,数据集成、数据存储等步骤对多源数据进行融合的。这种方案处理结构化文本数据具有显著的优势,但是针对非结构化文本数据,略显不足。具体不足如下:
5、传统的数据采集方式是对格式较为统一的数据用统一的规则进行采集,比如采集mysql中的数据,根据dtd采集xml数据等,但是对于文本数据,使用统一的规则数据采集,会丢失大量信息,因为文本本来就难以有统一的规则,也难以有统一的格式。不同年代的文本数据存在格式不同,且内容表达的特质也不同,比较久远的数据存储方式可能是甚至可能是以纸质形式存储的,这类信息无法使用传统的数据采集方式进行采集。此专利在数据采集之前,增加了特征提取装置,可以对不同年代,不同存储形式的文本信息的特征进行提取并形成特征血缘关系,从而为数据采集基础。
6、传统的数据清洗阶段是先制定一个统一的规则,对数据进行清洗,符合规则的进行保留,不符合规则的直接过滤。这种方式处理对文本数据的进行数据清洗是会丢失大量数据的。因为数据清洗需要指定规则,但是文本数据从提取到加工,规则是一点点完善建立起来的,而不是与生俱来的,因此,直接制定一个统一的规则进行数据清洗是不可取的。
技术实现思路
1、本技术提供一种非结构化文本类信息融合方法及装置,旨在解决现有技术所存在的问题。
2、第一方面,一种非结构化文本类信息融合方法,所述方法包括:
3、特征提取:对不同格式的文本信息中的各种信息标签进行提取,提取出对应的键值对标签;其中,进行全量数据的标签提取,并进行归纳汇总生成的特征标签集合;
4、数据抽取:将生成的特征标签集合根据标签对文本信息进行信息提取,并将提取出来的信息存表落库;
5、数据分流:将每个数据源的数据根据信息不同划分为多个不同的数据流;其中,每个数据源生成一张数据表;
6、数据标准化:对划分出的数据流进行标准化;
7、数据回流:将数据标准化过滤掉的数据进行修复和规则转换,重新融合到标准数据流中;
8、主键融合:从每个数据源中提取主键id信息,并根据各个数据源的主键id信息建立每个数据源之间的关联性;
9、数据合流,建立每个信息源的主键关联性,同时设置不同数据源的信息使用优先级,将多个数据源形成为统一整体。
10、可选地,特征提取中对不同格式的文本信息中的各种信息标签进行提取,提取出对应的键值对标签,具体包括针对不同的数据源进行相应的解析,其中:
11、针对 pdf和word文档的解析采用 apache poi、python-docx、pymupdf进行解析,解析后的数据放入特征血缘关系存储层;
12、针对手写文档和txt数据的解析通过键值对信息提前出相关的特征值,解析后的数据放入特征血缘关系存储层;
13、针对xml文档信息的解析包括提取所有xml的结构信息并转存为json文件进行特征提取放入特征血缘关系存储层;其中,解析器包括xpath 解析器、dom解析器、sax解析器;特征血缘关系存储层用于存储每个数据源里面标签的特征信息。
14、可选地,数据抽取中将生成的特征标签集合根据标签对文本信息进行信息提取,并将提取出来的信息存表落库,包括:
15、通过特征血缘关系存储层的标签将数据源中的信息进行过滤,将信息保存到kv类型的数据库当中从而形成数据源kv存储层;其中,kv类型的数据库为使用redis数据库或hbase数据库;
16、对于数据匹配不上的异常数据,记录每个文本未匹配上的信息,收集异常日志,进行相关的异常处理。
17、可选地,数据标准化中对划分出的数据流进行标准化,包括:
18、需要对不同文本信息源的数据进行规范化处理,包括将数据转换成统一的格式和标准;
19、对数据的完整性、一致性和唯一性进行验证;其中,完整性检查确保所有必要的数据字段都已收集且无缺失;一致性检查确保数据包括确定日期和时间的顺序正确,分类数据符合预定义的类别;唯一性检查确保数据中没有重复的记录;
20、从源系统中提取数据,将其转换为适合分析的格式,然后加载到目标数据库中;其中,在转换阶段执行数据清洗、格式转换、编码映射、数据聚合操作。
21、可选地,数据分流中将每个数据源的数据根据信息不同划分为多个不同的数据流,包括:
22、将每个数据源生成一张数据表,根据每个字段的字段长度,生成每个字段的字段最长值n个样本 ,字段最小值n个样本,字段平均值n个样本;
23、通过抽样数据的比对,根据特征相似的信息进行比对确定不同数据源的相同信息类型,从而进行归类。
24、可选地,主键融合中从每个数据源中提取主键id信息,并根据各个数据源的主键id信息建立每个数据源之间的关联性,包括:
25、从每个数据源中提取主键id信息;其中,主键id是唯一标识一条记录的字段,具体包括合同编号、用户id或产品代码;
26、在进行匹配之前,需要对提取的主键id信息进行预处理,并借助elasticsearch索引的分词查询功能,对id进行模糊查询,找到相似的id,将相似的id归类到同一个数据集中;
27、对于那些已经通过模糊匹配归类的数据集,进一步使用精准匹配技术进行一对一的匹配;其中,对数据集下的不同数据源主键进行规范化处理,包括去除前导零、统一日期格式;
28、通过模糊匹配和精准匹配,确定不同数据源中指向同一实体的主键id,建立指向同一实体的主键id之间的关联。
29、第二方面,一种非结构化文本类信息融合装置,所述装置包括:
30、特征提取模块,用于对不同格式的文本信息中的各种信息标签进行提取,提取出对应的键值对标签;其中,进行全量数据的标签提取,并进行归纳汇总生成的特征标签集合;
31、数据抽取模块,用于将生成的特征标签集合根据标签对文本信息进行信息提取,并将提取出来的信息存表落库;
32、数据分流模块,用于将每个数据源的数据根据信息不同划分为多个不同的数据流;其中,每个数据源生成一张数据表;
33、数据标准化模块,用于对划分出的数据流进行标准化;
34、数据回流模块,用于将数据标准化过滤掉的数据进行修复和规则转换,重新融合到标准数据流中;
35、主键融合模块,用于从每个数据源中提取主键id信息,并根据各个数据源的主键id信息建立每个数据源之间的关联性;
36、数据合流模块,用于建立每个信息源的主键关联性,同时设置不同数据源的信息使用优先级,将多个数据源形成为统一整体。
37、第三方面,提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述第一方面任一所述的非结构化文本类信息融合方法。
38、第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述第一方面任一所述的非结构化文本类信息融合方法。
39、第五方面,提供了一种计算机程序产品,包括计算机程序/指令,计算机程序/指令执行时实现上述第一方面任一所述的非结构化文本类信息融合方法。
40、相比现有技术,本技术至少具有以下有益效果:
41、本技术可以高效的完成对多个存在较大的关联性的文本数据源的融合,融合后生成一个标准化好的新数据源。此数据源涵盖了多个数据源标准化后的全部信息,并可以根据需要优先展示某个数据源的相关数据。同时可以对多个存在关联性的文本数据源同时进行标准化,针对数据源标准化规则可以灵活的调整并快速应用。
1.一种非结构化文本类信息融合方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,特征提取中对不同格式的文本信息中的各种信息标签进行提取,提取出对应的键值对标签,具体包括针对不同的数据源进行相应的解析,其中:
3.根据权利要求2所述的方法,其特征在于,数据抽取中将生成的特征标签集合根据标签对文本信息进行信息提取,并将提取出来的信息存表落库,包括:
4.根据权利要求1所述的方法,其特征在于,数据标准化中对划分出的数据流进行标准化,包括:
5.根据权利要求1所述的方法,其特征在于,数据分流中将每个数据源的数据根据信息不同划分为多个不同的数据流,包括:
6.根据权利要求1所述的方法,其特征在于,主键融合中从每个数据源中提取主键id信息,并根据各个数据源的主键id信息建立每个数据源之间的关联性,包括:
7.一种非结构化文本类信息融合装置,其特征在于,装置包括:
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述方法的步骤。
10.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1至6中任一项所述方法的步骤。