1.本发明属于数据处理技术领域,涉及一种征信报告识别方法。
背景技术:
2.征信报告是由中国人民银行征信中心出具的记载个人信用信息的记录,分为个人信用报告以及企业信用报告,用于查询个人或企业的社会信用。
3.其中,个人征信报告包含个人基本信息,信用交易信息以及其他信息。现实中,对于一些爱超前消费人们的征信报告信息更是冗长且复杂的,人工录入信息的方式将耗费大量人力和时间。相比之下,自动化的方式将会极大的提高工作效率。
4.简单地通过ocr识别得到的输出结果也是一行行的输出,直观性不强,不便分析本人的信用状况。其中,传统ocr识别并不能很好支持非单一场景下的识别,在此基础上基于深度学习的ocr识别有非常大的优势。原则上,深度学习方法能将任何可以转换为图像的识别对象作为输入,包括pdf,扫描文档等。通过对图像文字的行检测和识别所得信息进行地,包含图像方向判断,倾斜矫正,水印检测和过滤等预处理方法可以更好地将文字在复杂场景下准确的识别出来。后续的处理方式需要利用表格分析的方法,由于表格存在不同的版式和内部结构。用于判断的重要指标“行列分割线”在现实中存在部分缺失或完全缺失的情况。由于上述难点,市场上提供征信报告识别的厂家非常少,且仅支持完整的扫描的pdf文件,支持场景单一,整份的识别率也不高。市面上现有的征信报告识别软件只能处理完整的扫描的pdf文件,处理信贷交易信息较少的识别。
技术实现要素:
5.针对上述现有技术中存在的问题,本发明公布了一种征信报告识别方法,该方法运用文本行内容和模板信息相互匹配的方式,可高效地从图像抽取文本信息,并针对匹配到的文本字段类型进行结构化提取和字段校验,再运用组结构方式将所有信息进行分类整合,最终实现还原整份征信报告内容分布,其识别准确率高,识别结果完整,且支持多样场景识别,适应性强,解决了现有技术中识别方法图像要求较高,且无法在复杂情况下准确识别的问题。
6.本发明为解决上述技术问题首先提供了一种征信报告识别方法,其包括如下步骤:
7.s1获取等待识别的征信报告的图像数据:征信报告图像数据包括jpg、bmp、png、pdf、 tiff文件格式,且针对pdf格式的多页文件首先进行单页拆分,再将拆分后的单页转换为图像数据;
8.s2对图像数据进行预处理过程,获得预处理后的图像数据;
9.s3对预处理完成的图像数据进行全文识别,获取文本行内容以及框线信息;
10.s4针对图像数据中版式结构进行分析,判断图像数据中单双页;
11.s5将文本行内容与模板信息进行信息类型匹配:根据s4中图像数据的单页或双页
判断结果以及识别的框线信息对文本行内容进行切分、聚行和分类,根据整理获得的文本行内容与模板信息进行信息类型匹配,其中模板信息包括有:关键词的文本信息、关键词的位置信息、关键词是否多行属性、结果值是否多行属性、关键词类型值、关键词是否为主列、关键词所在行类型值;
12.s6针对匹配完成的文本行内容根据信息类型进行提取,其中信息类型包括组名称提取、通用行提取、通用表格提取、还款记录提取、子组名称提取以及单行提取;
13.s7针对提取结果进行校验和汇总:针对提取结果依照匹配得到的数据类型进行数据校验,数据类型包括金额、日期、比例、还款记录,针对匹配到的不同数据类型,通过正则表达式方式对提取结果进行过滤;将校验后的提取结果按照组结构进行整合,并保留当前图像数据中未构成组结构的信息;
14.s8将检验汇总后的提取结果依据特定格式输出至xml文件中。
15.进一步的,所述s2中预处理过程包括:
16.s21.图像方向判断:利用深度学习模型对图像上的文本内容进行文本行检测,并利用ocr 识别技术来判断当前图像方向;
17.s22.图像倾斜校正:通过深度学习模型对图像上的文本内容进行文本行检测,并利用ocr 识别技术计算当前图像的倾斜角度,并将图像旋转相应角度进行矫正;
18.s23.图像水印检测与过滤:通过深度学习模型对图像进行水印位置检测以及去除水印,
19.s231.图像预处理:在确保图像的长宽比不变的条件下,对图像进行归一化处理;
20.s232.利用生物医学图像分割技术并结合卷积网络模型,对预处理后的图像进行降采样,即通过卷积和池化以获得不同尺度的特征图和特征值,然后进行上采样和反卷积,上采样部分包括将特征值上采样回去与ground truth进行匹配,完成像素级的分类,最终得到与预处理图像同等大小的图像,并利用分类结果完成包含水印信息的图像分割;
21.s233.通过调整感受野大小,使图像中水印整体完全呈现,并根据回归损失函数的均方误差得到:输入含水印的图像到输出去除水印的图像的最小损失;
22.s234.通过水印的方向、大小以及角度生成训练样本进行训练,然后利用训练后的深度学习模型去除图像的水印。
23.进一步的,所述s4中针对图像数据版式结构进行分析的具体方法为:
24.s41.识别图像数据中连续页:通过读取图像数据中拆分获得的页数以及通过判断图像数据中的结束标志判断是否存在续页;
25.s42.判断单页图像数据的页面是单页或多页,针对单页图像数据的判断方法包括深度学习分类方法和/或模板匹配方法;
26.所述其中深度学习分类方法的具体步骤为:
27.对图像数据进行预处理,在确保图像长宽比例不变的基础上对图像数据进行归一化处理;
28.利用视觉几何群网络获得不同大小的特征映射图,并利用特征映射图中各点构造若干个不同尺度大小的default box;
29.将不同特征图生成的default box组合起来,并通过非极大值抑制方法持续与ground truth 进行匹配,过滤掉重叠或者不正确的default box;
30.通过图像数据中边界框大小、位置以及角度生成训练样本进行训练;
31.通过检测图像数据中边界框大小及位置判断页面结构:如果检测图像数据中边界框大小相似且左右分布,则判断图像数据为双页,否则为单页。
32.所述模板匹配方法的具体步骤为:
33.通过计算文本块在垂直方向上的重合度判断是否属于同一行,并对文本块进行聚行,利用检测到的框线信息对聚行结果进行校正;
34.利用聚行后的文本行内容遍历整个模板内容,通过计算特定阈值来判断是否匹配成功;其中特定阀值的确定与文本行个数相关,一般匹配成功的文本行个数大于总数一半即可视为匹配成功;
35.通过匹配成功的文本行在模板中的分布情况判断图像是单页或双页。
36.进一步的,所述s5中对文本行内容切分包含左右切分和/或上下切分;
37.对文本行内容进行左右切分时,需首先判断图像数据为双页,利用获取的文本内容计算得到相应的分布情况:文字越密集的位置,计算的分布值越大,文字越稀疏的位置,计算的分布值越小;根据文本内容的分布值找到中间的空白区域位置,并利用空白区域位置将文本内容分类为左右两部分;
38.对文本行内容进行上下切分时,首先对文本块进行聚行,然后通过利用识别获得的框线信息以及模板信息中关键词或结果值是否多行属性判断通过聚行得到的文本行之间是否需要进行上下切分。
39.进一步的,所述s6中针对当匹配类型是组名称提取的文本内容进行提取的具体方法为:将整理后的文本行与模板信息通过计算特定阈值进行匹配,特定阀值的确定与文本行个数相关,一般匹配成功的文本行个数大于总数一半即可视为匹配成功,若匹配成功则生成一个新组,若匹配到征信报告的结束语,则设置步骤s41中识别的结束标志为真,并依照特定格式输出提取结果。
40.进一步的,所述s6中针对匹配类型是通用行提取的文本内容进行提取的具体方法为:将整理后的文本行与模板信息通过计算特定的阈值进行匹配,特定阀值的确定与文本行个数相关,一般匹配成功的文本行个数大于总数一半即可视为匹配成功,匹配成功则生成一个新的行数据;
41.s621.顺序读取整理后的文本行,对每页末尾和续页文本行都添加标志,并对续页文本行的位置做变换,即通过计算续页文本行和上一页末尾文本行水平和垂直位置的距离,并让续页文本行的位置加上这个距离,使得所有文本行都是从上往下进行读取,且内容不会缺失或者重复,方便后面的位置计算;
42.s622.征信报告中每个单元格的大小及位置是固定的,在模板匹配成功后,为了计算需要提取字段区域的左右边界,利用模板信息中配置的左右单元格个数乘以匹配到文本行的单字高度得到左右边界距离,即用当前文本行区域左边位置减去该距离得到左边界,用当前文本行区域右边位置加上该距离得到右边界;并通过持续判断下一个文本行是否为结果值的方式,得到提取字段区域的上下边界,即如果下一个文本行是结果值,则提取字段区域的上边界为当前文本行的下边界位置,如果不是则继续判断下下个文本行是否是结果值,直到找到结果值,然后利用模板信息中设置的结果值是否多行属性判断是否继续提取后续文本行,直到模板匹配再次成功,则提取字段区域的下边界为新匹配文本行的上边界
位置;
43.s623.利用计算得到的当前文本行区域位置进行文本提取,如果当前区域检测到框线信息,则结合框线位置进行文本提取,最终得到对应每个关键词的结果值;
44.s624.将提取结果以最小识别单元保存到行数据中,完成当前文本行匹配提取后,若上一文本行为空行,则将当前文本行数据插入到上一文本行的结果中,否则需要新增一行数据,然后进行下一文本行匹配提取。
45.进一步的,所述s6中针对匹配完成的文本内容根据信息类型进行提取的具体方法为:当匹配类型是通用表格提取:将整理后的文本行与模板信息通过计算特定阈值进行匹配,特定阀值的确定与文本行个数相关,一般匹配成功的文本行个数大于总数一半即可视为匹配成功,匹配成功则生成一个新的列表数据;
46.s631.顺序读取整理后的文本行,对每页末尾和续页文本行都添加标志,并对续页文本行的位置做变换,即通过计算续页文本行和上一页末尾文本行水平和垂直位置的距离,并让续页文本行的位置加上这个距离,使得所有文本行都是从上往下进行读取,且内容不会缺失或者重复,方便后面的位置计算;
47.s632.征信报告中每个单元格的大小及位置是固定的,在模板匹配成功后,为了计算需要提取字段区域的左右边界,利用模板信息中配置的左右单元格个数乘以匹配到文本行的单字高度得到左右边界距离,即用当前文本行区域左边位置减去该距离得到左边界,用当前文本行区域右边位置加上该距离得到右边界;并通过持续判断下一个文本行是否为结果值的方式,得到该表格区域的所有结果值,即如果下一个文本行是结果值,则将结果值所在行的数据保存下来,直到模板匹配再次成功,之后根据模板信息中所设置的关键词是否为主列属性提取主列的个数和位置;
48.s633.利用提取到的主列个数和位置进行分行,得到每一行结果值的上下边界,并利用各个关键词计算的左右边界进行提取,如果该区域检测到框线则利用框线位置,最终得到对应每个关键词的结果值;
49.s634.提取结果将以最小识别单元保存到行数据中,完成当前文本行匹配提取后,若上一文本行为空行,则将当前文本行数据插入到上一文本行的结果中,否则需要新增一行数据,再将行数据保存到列表数据中,然后进行下一文本行匹配提取。
50.进一步的,所述s6中针对匹配类型是还款记录提取的文本内容进行提取的具体方法为::将整理后的文本行与模板信息通过计算特定阈值进行匹配,特定阀值的确定与文本行个数相关,一般匹配成功的文本行个数大于总数一半即可视为匹配成功,匹配成功则生成一个新的列表数据;其中还款记录提取是指满足上下关键词-结果值的表格结构,当进行还款记录提取时,需要提取包含左侧的年份数据、上下两列分布的还款记录数据和金额数据,
51.s641.顺序读取整理后的文本行,对每页末尾和续页文本行都添加标志,并对续页文本行的位置做变换,即通过计算续页文本行和上一页末尾文本行水平和垂直位置的距离,并让续页文本行的位置加上这个距离,使得所有文本行都是从上往下进行读取,且内容不会缺失或者重复,方便后面的位置计算;
52.s642.通过计算首位关键词的位置找到年份数据的右边界位置,并利用右边界位置计算得到年份的候选项,并通过年份的属性进行过滤,获得全部年份的位置和个数;
53.s643.利用年份与关键词之间的位置信息来计算还款记录数据和金额数据的上下边界,以及利用关键词之间的位置信息计算还款记录数据和金额数据的左右边界,如果当前区域检测到框线信息,则结合框线信息的位置判断当前文本行区域边界;通过位置信息得到还款记录数据和金额数据的候选项,并利用还款记录数据和金额数据的属性进行过滤,得到对应每个关键词以及年份数据的还款记录数据和金额数据;
54.s644.将提取结果将以最小识别单元保存到行数据中,完成当前文本行匹配提取后,如果上一文本行为空行,则将当前文本行数据插入到上一文本行的结果中,否则需要新增一行数据,再将行数据保存到列表数据中,然后进行下一文本行匹配提取。
55.进一步的,所述s6中针对匹配类型是子组名称提取的文本行内容进行提取的具体方法为:将整理后的文本行与模板信息通过计算特定阈值进行匹配,特定阀值的确定与文本行个数相关,一般匹配成功的文本行个数大于总数一半即可视为匹配成功,若匹配成功则生成一个新子组;当匹配到的子组名称包含账户,且账户个数未识别出,需计算当前现有子组的个数进行推算账户个数。
56.进一步的,所述s6中针对匹配类型是单行提取的文本行内容进行提取的具体方法为:将整理后的文本行与模板信息通过计算特定阈值进行匹配,特定阀值的确定与文本行个数相关,一般匹配成功的文本行个数大于总数一半即可视为匹配成功,若匹配成功则生成一个新的行数据;其中单行提取是指满足需要整行进行提取的结构,通过利用已知的几种固定关键词对需要单行提取的文本结构进行提取,提取结果将以最小识别单元保存到行数据中,完成当前文本行匹配提取后,将进行下一文本行匹配提取。
57.此外本发明还公开有一种征信报告识别系统,其采用上述征信报告识别方法实现征信报告识别,该系统包括:
58.图像数据获取模块,用于获取待识别征信报告的图像数据;
59.图像预处理模块,用于对获取的征信报告的图像数据进行方向判断、倾斜校正、水印检测和过滤;
60.ocr识别模块,用于对征信报告的图像数据进行全文ocr识别;
61.版式分析模块,对征信报告的图像数据进行版式分析;
62.模板匹配模块,用于根据文本行内容和模板信息进行匹配;
63.数据提取模块,用于依据匹配的信息类型进行数据提取;
64.校验汇总模块,用于对提取结果进行数据校验和汇总;
65.结构化输出模块,用于将提取结果结构化输出到xml文件中的。
66.本发明同现有技术相比,具有如下优点:
67.1)本发明的征信报告识别方法中在识别过程中会针对征信报告图像数据进行预处理,针对图像数据自动判断并旋转进行识别,通过深度学习技术进行征信报告的水印位置进行检测和过滤,可针对不同方向或者缺页的图像数据进行识别,可尽可能排除影响识别的因素,提高识别准确度,可更好支持拍照图像的场景,支持单页,双页,缺页等多场景下的识别,解决目前市场上仅支持完整pdf扫描件录入的限制,做到随拍随识。
68.2)本发明的征信报告识别方法中会针对征信报告图像数据的排版进行识别,通过深度学习技术可对征信报告的版式进行识别,通过结合文本内容分布情况、框线信息对文本进行切分,使得在模板匹配阶段可以更好地进行匹配,提高模板匹配的准确度,进而提高
识别准确率。
69.3)本发明的征信报告识别方法为了更好支持框线部分缺失或者完全缺失等的场景,通过运用文本行内容和模板信息进行匹配的方式,可高效地从图像数据抽取相关信息,并针对匹配到的字段类型进行结构化提取和字段校验,使得字段的识别准确率更高,以及整份的识别率也更高,并且在对匹配到的字段根据类型进行提取阶段会以组结构形式保存,并在提取结果汇总阶段保留图像数据中未构成组结构的信息,方便有续页情况下的提取,提高识别结果的丰富度和完整度。
附图说明
70.图1是本发明实施例中一种征信报告识别方法的流程示意图;
71.图2是本发明实施例中一种征信报告识别系统的结构示意图;
72.图3a-3c是本发明实施例的征信报告中不同信息类型的结构示意图;
73.图4是本发明实施例利用征信报告识别方法去除征信报告水印的效果图,图中左侧为含有水印的原始图,右侧为去除水印后的效果图。
74.附图中附图标记说明:0为组名称提取;1为通用行提取;2为通用表格提取;3为还款记录提取;4为子组名称提取;5为单行提取。
具体实施方式
75.为使本发明实施方式的目的、技术方案和优点更加清楚,下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
76.因此,以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
77.实施例:
78.结合图1所示,本实施例中公开了一种一种征信报告识别方法,其包括如下步骤:
79.s1获取等待识别的征信报告的图像数据:征信报告图像数据包括jpg、bmp、png、pdf、 tiff文件格式,且针对pdf格式的多页文件首先进行单页拆分,再将拆分后的单页转换为图像数据;该步骤通过将不同格式的图像数据进行拆分,可提升识别准确度,避免多页识别,
80.s2对图像数据进行预处理过程,获得预处理后的图像数据;
81.针对步骤s2中图像预处理过程,本实施例针对图像数据进行方向判断、倾斜校正、水印检测与过滤,具体步骤如下:
82.s21.图像方向判断:利用深度学习模型对图像上的文本内容进行文本行检测,并利用ocr 识别技术来判断当前图像方向;
83.s22.图像倾斜校正:通过深度学习模型对图像上的文本内容进行文本行检测,并
利用ocr 识别技术计算当前图像的倾斜角度,并将图像旋转相应角度进行矫正;
84.s23.图像水印检测与过滤:通过深度学习模型对图像进行水印位置检测以及去除水印,
85.s231.图像预处理:在确保图像的长宽比不变的条件下,对图像进行归一化处理;
86.s232.利用生物医学图像分割技术并结合卷积网络模型,对预处理后的图像进行降采样,即通过卷积和池化以获得不同尺度的特征图和特征值,然后进行上采样和反卷积,上采样部分包括将特征值上采样回去与ground truth进行匹配,完成像素级的分类,最终得到与预处理图像同等大小的图像,并利用分类结果完成包含水印信息的图像分割;
87.s233.通过调整感受野大小,使图像中水印整体完全呈现,并根据回归损失函数的均方误差得到:输入含水印的图像到输出去除水印的图像的最小损失;
88.s234.通过水印的方向、大小以及角度生成训练样本进行训练,然后利用训练后的深度学习模型去除图像的水印,如图4所示。
89.由于在实际图像识别过程中,图像来源多样,例如扫描、拍照等,图像内容会存在不同角度、不同方向或者缺页等情况,在对图像进行预处理阶段会通过深度学习技术对图像上的文本内容进行行检测并进行ocr识别来判断图像方向和倾斜角度并做矫正,使得在模板匹配阶段可以更好地进行匹配。
90.s3对预处理完成的图像数据进行全文识别,获取文本行内容以及框线信息;
91.s4针对图像数据中版式结构进行分析,判断图像数据中单双页;
92.本实施例中步骤s4针对图像数据版式结构进行分析的具体方法为:
93.s41.识别图像数据中连续页:通过读取图像数据中拆分获得的页数以及通过判断图像数据中的结束标志判断是否存在续页;
94.s42.判断单页图像数据的页面是单页或多页,针对单页图像数据的判断方法包括深度学习分类方法和/或模板匹配方法;
95.其中所述深度学习分类方法的具体步骤为:
96.对图像数据进行预处理,在确保图像长宽比例不变的基础上对图像数据进行归一化处理;
97.利用视觉几何群网络获得不同大小的特征映射图,并利用特征映射图中各点构造若干个不同尺度大小的default box;
98.将不同特征图生成的default box组合起来,并通过非极大值抑制方法持续与ground truth 进行匹配,过滤掉重叠或者不正确的default box;
99.通过图像数据中边界框大小、位置以及角度生成训练样本进行训练;
100.通过检测图像数据中边界框大小及位置判断页面结构:如果检测图像数据中边界框大小相似且左右分布,则判断图像数据为双页,否则为单页。
101.所述模板匹配方法的具体步骤为:
102.通过计算文本块在垂直方向上的重合度判断是否属于同一行,并对文本块进行聚行,利用检测到的框线信息对聚行结果进行校正;
103.利用聚行后的文本行内容遍历整个模板内容,通过计算特定阈值来判断是否匹配成功;本实施例中特定阀值与文本行个数相关,一般匹配成功的文本行个数大于总数一半即可视为匹配成功。如图3中编号1所示,文本中包括8个文本行,只要匹配成功个数大于4个
即可视为匹配成功。
104.通过匹配成功的文本行在模板中的分布情况判断图像是单页或双页。
105.本实施例通过文本内容和模板进行匹配的方式,可以高效地从图像抽取相关信息,并针对匹配到的字段类型进行结构化提取和字段校验,使得字段的识别准确率更高,以及整份的识别率也更高。
106.s5将文本行内容与模板信息进行信息类型匹配:根据s4中图像数据的单页或双页判断结果以及识别的框线信息对文本行内容进行切分、聚行和分类,根据整理获得的文本行内容与模板信息进行信息类型匹配,其中模板信息包括有:关键词的文本信息、关键词的位置信息、关键词是否多行属性、结果值是否多行属性、关键词类型值、关键词是否为主列、关键词所在行类型值;
107.其中本实施例中关键词文本信息属性的设置是为了结合深度学习技术所得到的文本行通过计算特定的阈值进行匹配。关键词的位置信息属性的设置是为了在对匹配到的字段依据类型进行提取阶段计算相关位置。关键词是否多行属性的设置是为了在文本行整理阶段判断是否需要上下切分以及聚行。结果值是否多行属性的设置是为了在对匹配到的字段根据类型进行提取阶段进行判断是否需要提取下一行。关键词类型属性的设置是为了在提取结果校验阶段可根据不同的类型进行校验。关键词是否为主列属性的设置是为了在对匹配到的字段根据类型进行通用表格提取时判断该列是否可以用作分行。关键词所在行类型值属性的设置是为了可以提取不同格式的字段,最终以组结构的形式完整保留征信报告内容。
108.进一步的,所述s5中对文本行内容切分包含左右切分和/或上下切分;
109.对文本行内容进行左右切分时,需首先判断图像数据为双页,利用获取的文本内容计算得到相应的分布情况:文字越密集的位置,计算的分布值越大,文字越稀疏的位置,计算的分布值越小;根据文本内容的分布值找到中间的空白区域位置,并利用空白区域位置将文本内容分类为左右两部分;
110.对文本行内容进行上下切分时,首先对文本块进行聚行,然后通过利用识别获得的框线信息以及模板信息中关键词或结果值是否多行属性判断通过聚行得到的文本行之间是否需要进行上下切分。通过上述切分方式可针对单页图像中的版式进行识别,例如拍摄获得的单张图像照片中会存在两页或者多页,为提高识别准确度,需要判断图像中是否存在多页情况,并针对性进行识别,以提高识别准确性和完整性。
111.s6针对匹配完成的文本行内容根据信息类型进行提取,其中信息类型包括组名称提取0 、通用行提取1、通用表格提取2、还款记录提取3、子组名称提取4以及单行提取5;
112.具体的,结合图3a-3c所示,针对不同信息类型进行提取的方法为:
113.进一步的,所述s6中针对当匹配类型是组名称提取0的文本内容进行提取的具体方法为:将整理后的文本行与模板信息通过计算特定阈值进行匹配,本实施例中特定阀值与文本行个数相关,一般匹配成功的文本行个数大于总数一半即可视为匹配成功,若匹配成功则生成一个新组,若匹配到征信报告的结束语,则设置步骤s41中识别的结束标志为真,并依照特定格式输出提取结果。
114.而针对匹配类型是通用行提取1的文本内容进行提取的具体方法为:将整理后的文本行与模板信息通过计算特定阈值进行匹配,本实施例中特定阀值与文本行个数相关,
一般匹配成功的文本行个数大于总数一半即可视为匹配成功,匹配成功则生成一个新的行数据;
115.s621.顺序读取整理后的文本行,对每页末尾和续页文本行都添加标志,并对续页文本行的位置做变换,即通过计算续页文本行和上一页末尾文本行水平和垂直位置的距离,并让续页文本行的位置加上这个距离,使得所有文本行都是从上往下进行读取,且内容不会缺失或者重复,方便后面的位置计算;
116.s622.由于征信报告每个单元格的大小位置比较固定,在模板匹配成功后,为了计算需要提取字段区域的左右边界,利用模板信息中配置的左右单元格个数乘以匹配到文本行的单字高度得到左右边界距离,即用当前文本行区域左边位置减去这个距离得到左边界,用当前文本行区域右边位置加上这个距离得到右边界。并通过不断去判断下一个文本行是否为结果值的方式,得到提取字段区域的上下边界,即如果下一个文本行是结果值,那么提取字段区域的上边界为当且文本行的下边界位置,如果不是则继续判断下下个文本行是否是结果值,直到找到结果值,然后利用模板信息中设置的结果值是否多行属性判断是否提取下一文本行,直到模板匹配再次成功,那么提取字段区域的下边界为当且文本行的上边界位置;
117.s623.利用计算得到的当前文本行区域位置进行文本提取,如果当前区域检测到框线信息,则结合框线位置进行文本提取,最终得到对应每个关键词的结果值;
118.s624.将提取结果以最小识别单元保存到行数据中,该最小识别单元中包括与图像数据中每个单元格一一对应的关键词、结果值、关键词及结果值的位置信息等,在完成当前文本行匹配提取后,若上一文本行为空行,则将当前文本行数据插入到上一文本行的结果中,否则需要新增一行数据,然后进行下一文本行匹配提取。
119.进一步的,针对当匹配类型是通用表格提取2的文本内容进行提取的具体方法为:将整理后的文本行与模板信息通过计算特定阈值进行匹配,本实施例中特定阀值与文本行个数相关,一般匹配成功的文本行个数大于总数一半即可视为匹配成功,匹配成功则生成一个新的列表数据;
120.s631.顺序读取整理后的文本行,对每页末尾和续页文本行都添加标志,并对续页文本行的位置做变换,即通过计算续页文本行和上一页末尾文本行水平和垂直位置的距离,并让续页文本行的位置加上这个距离,使得所有文本行都是从上往下进行读取,且内容不会缺失或者重复,方便后面的位置计算;
121.s632.利用模板信息中所设置的左右单元格个数乘以匹配到文本行的单字高度得到当前文本行区域的左右边界,即用当前文本行区域左边位置减去该距离得到左边界,用当前文本行区域右边位置加上该距离得到右边界;并通过持续判断下一个文本行是否为结果值的方式,得到该表格区域的所有结果值,即如果下一个文本行是结果值,则将结果值所在行的数据保存下来,直到模板匹配再次成功,之后根据模板信息中所设置的关键词是否为主列属性提取主列的个数和位置;
122.s633.利用提取到的主列个数和位置进行分行,得到每一行结果值的上下边界,并利用各个关键词计算的左右边界进行提取,如果该区域检测到框线则利用框线位置,最终得到对应每个关键词的结果值;
123.s634.提取结果将以最小识别单元保存到行数据中,该最小识别单元中包括与图
像数据中每个单元格一一对应的关键词、结果值、关键词及结果值的位置信息等,在完成当前文本行匹配提取后,若上一文本行为空行,则将当前文本行数据插入到上一文本行的结果中,否则需要新增一行数据,再将行数据保存到列表数据中,然后进行下一文本行匹配提取。
124.进一步的,针对匹配类型是还款记录提取3的文本内容进行提取的具体方法为:将整理后的文本行与模板信息通过计算特定阈值进行匹配,本实施例中特定阀值与文本行个数相关,一般匹配成功的文本行个数大于总数一半即可视为匹配成功,匹配成功则生成一个新的列表数据;其中还款记录提取是指满足上下关键词-结果值的表格结构,当进行还款记录提取时,需要提取包含左侧的年份数据、上下两列分布的还款记录数据和金额数据,
125.s641.顺序读取整理后的文本行,对每页末尾和续页文本行都添加标志,并对续页文本行的位置做变换,即通过计算续页文本行和上一页末尾文本行水平和垂直位置的距离,并让续页文本行的位置加上这个距离,使得所有文本行都是从上往下进行读取,且内容不会缺失或者重复,方便后面的位置计算;
126.s642.通过计算首位关键词的位置找到年份数据的右边界位置,并利用右边界位置计算得到年份的候选项,并通过年份的属性进行过滤,获得全部年份的位置和个数;
127.s643.利用年份与关键词之间的位置信息来计算还款记录数据和金额数据的上下边界,以及利用关键词之间的位置信息计算还款记录数据和金额数据的左右边界,如果当前区域检测到框线信息,则结合框线信息的位置判断当前文本行区域边界;通过位置信息得到还款记录数据和金额数据的候选项,并利用还款记录数据和金额数据的属性进行过滤,得到对应每个关键词以及年份数据的还款记录数据和金额数据;
128.s644.将提取结果将以最小识别单元保存到行数据中,该最小识别单元中包括与图像数据中每个单元格一一对应的关键词、结果值、关键词及结果值的位置信息等,在完成当前文本行匹配提取后,如果上一文本行为空行,则将当前文本行数据插入到上一文本行的结果中,否则需要新增一行数据,再将行数据保存到列表数据中,然后进行下一文本行匹配提取。
129.而所述s6中针对匹配类型是子组名称提取4的文本行内容进行提取的具体方法为:将整理后的文本行与模板信息通过计算特定阈值进行匹配,本实施例中特定阀值与文本行个数相关,一般匹配成功的文本行个数大于总数一半即可视为匹配成功,若匹配成功则生成一个新子组;当匹配到的子组名称包含账户,且账户个数未识别出,需计算当前现有子组的个数进行推算账户个数。
130.针对匹配类型是单行提取5的文本行内容进行提取的具体方法为:将整理后的文本行与模板信息通过计算特定阈值进行匹配,本实施例中特定阀值与文本行个数相关,一般匹配成功的文本行个数大于总数一半即可视为匹配成功,若匹配成功则生成一个新的行数据;其中单行提取是指满足需要整行进行提取的结构,通过利用已知的几种固定关键词对需要单行提取的文本结构进行提取,例如图3a中椭圆框所示的“截至时间”、“还款记录”;图3c中椭圆框所示的“报告编号”、“报告时间”等这些左右文本行结构,通过这些固定关键词来找到右边或者左边待提取的文本,然后提取结果将以最小识别单元保存到行数据中,该最小识别单元中包括与图像数据中每个单元格一一对应的关键词、结果值、关键词及结果值的位置信息等,在完成当前文本行匹配提取后,将进行下一文本行匹配提取。
131.通过依照上述类型进行图像识别提取,可以高效地从图像抽取相关信息,并且针对匹配到的字段类型进行结构化提取,使得字段的识别准确率更高且整份的识别率更高,增加数据准确性,且最终结果可保留征信报告的版式结构进行输出,识别结果丰富且结构清晰。
132.s7针对提取结果进行校验和汇总:针对提取结果依照匹配得到的数据类型进行数据校验,数据类型包括金额、日期、比例、还款记录,校验过程中针对匹配到的不同数据类型,可通过正则表达式方式对提取结果进行过滤,其中包含数字过滤、英文过滤、中文过滤、符号过滤等;将校验后的提取结果按照组结构进行整合,并保留当前图像数据中未构成组结构的信息;
133.s8将检验汇总后的提取结果依据特定格式输出至xml文件中。
134.此外本发明还公开有一种征信报告识别系统,其采用上述征信报告识别方法实现征信报告识别,如图2所示,该系统包括:
135.图像数据获取模块100,用于获取待识别征信报告的图像数据;
136.图像预处理模块200,用于对获取的征信报告的图像数据进行方向判断、倾斜校正、水印检测和过滤;
137.ocr识别模块300,用于对征信报告的图像数据进行全文ocr识别;
138.版式分析模块400,对征信报告的图像数据进行版式分析;
139.模板匹配模块500,用于根据文本行内容和模板信息进行匹配;
140.数据提取模块600,用于依据匹配的信息类型进行数据提取;
141.校验汇总模块700,用于对提取结果进行数据校验和汇总;
142.结构化输出模块800,用于将提取结果结构化输出到xml文件中的。
143.以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均包含在本发明的保护范围之内。
技术特征:
1.一种征信报告识别方法,其特征在于,包括如下步骤:s1获取等待识别的征信报告的图像数据:征信报告图像数据包括jpg、bmp、png、pdf、tiff文件格式,且针对pdf格式的多页文件首先进行单页拆分,再将拆分后的单页转换为图像数据;s2对图像数据进行预处理过程,获得预处理后的图像数据;s3对预处理完成的图像数据进行全文识别,获取文本行内容以及框线信息;s4针对图像数据中版式结构进行分析,判断图像数据中单双页;s5将文本行内容与模板信息进行信息类型匹配:根据s4中图像数据的单页或双页判断结果以及识别的框线信息对文本行内容进行切分、聚行和分类,根据整理获得的文本行内容与模板信息进行信息类型匹配,其中模板信息包括有:关键词的文本信息、关键词的位置信息、关键词是否多行属性、结果值是否多行属性、关键词类型值、关键词是否为主列、关键词所在行类型值;s6针对匹配完成的文本行内容根据信息类型进行提取,其中信息类型包括组名称提取、通用行提取、通用表格提取、还款记录提取、子组名称提取以及单行提取;s7针对提取结果进行校验和汇总:针对提取结果依照匹配得到的数据类型进行数据校验,针对匹配到的不同数据类型,通过正则表达式方式对提取结果进行过滤;将校验后的提取结果按照组结构进行整合,并保留当前图像数据中未构成组结构的信息;s8将检验汇总后的提取结果依据特定格式输出至xml文件中。2.根据权利要求1所述的征信报告识别方法,其特征为:所述s2中预处理过程包括:s21.图像方向判断:利用深度学习模型对图像上的文本内容进行文本行检测,并利用ocr识别技术来判断当前图像方向;s22.图像倾斜校正:通过深度学习模型对图像上的文本内容进行文本行检测,并利用ocr识别技术计算当前图像的倾斜角度,并将图像旋转相应角度进行矫正;s23.图像水印检测与过滤:通过深度学习模型对图像进行水印位置检测以及去除水印,s231.图像预处理:在确保图像的长宽比不变的条件下,对图像进行归一化处理;s232.利用生物医学图像分割技术并结合卷积网络模型,对预处理后的图像进行降采样,即通过卷积和池化以获得不同尺度的特征图和特征值,然后进行上采样和反卷积,上采样部分包括将特征值上采样回去与ground truth进行匹配,完成像素级的分类,最终得到与预处理图像同等大小的图像,并利用分类结果完成包含水印信息的图像分割;s233.通过调整感受野大小,使图像中水印整体完全呈现,并根据回归损失函数的均方误差得到:输入含水印的图像到输出去除水印的图像的最小损失;s234.通过水印的方向、大小以及角度生成训练样本进行训练,然后利用训练后的深度学习模型去除图像的水印。3.根据权利要求1所述的征信报告识别方法,其特征为:所述s4中针对图像数据版式结构进行分析的具体方法为:s41.识别图像数据中连续页:通过读取图像数据中拆分获得的页数以及通过判断图像数据中的结束标志判断是否存在续页;s42.判断单页图像数据的页面是单页或多页,针对单页图像数据的判断方法包括深度
学习分类方法和模板匹配方法;所述其中深度学习分类方法的具体步骤为:对图像数据进行预处理,在确保图像长宽比例不变的基础上对图像数据进行归一化处理;利用视觉几何群网络获得不同大小的特征映射图,并利用特征映射图中各点构造若干个不同尺度大小的default box;将不同特征图生成的default box组合起来,并通过非极大值抑制方法持续与ground truth进行匹配,过滤掉重叠或者不正确的default box;通过图像数据中边界框大小、位置以及角度生成训练样本进行训练;通过检测图像数据中边界框大小及位置判断页面结构:如果检测图像数据中边界框大小相似且左右分布,则判断图像数据为双页,否则为单页;所述模板匹配方法的具体步骤为:通过计算文本块在垂直方向上的重合度判断是否属于同一行,并对文本块进行聚行,利用检测到的框线信息对聚行结果进行校正;利用聚行后的文本行内容遍历整个模板内容,通过计算特定阈值来判断是否匹配成功;通过匹配成功的文本行在模板中的分布情况判断图像是单页或双页。4.根据权利要求1所述的征信报告识别方法,其特征为:所述s5中对文本行内容切分包含左右切分和/或上下切分;对文本行内容进行左右切分时,需首先判断图像数据为双页,利用获取的文本内容计算得到相应的分布情况:文字越密集的位置,计算的分布值越大,文字越稀疏的位置,计算的分布值越小;根据文本内容的分布值找到中间的空白区域位置,并利用空白区域位置将文本内容分类为左右两部分;对文本行内容进行上下切分时,首先对文本块进行聚行,然后通过利用识别获得的框线信息以及模板信息中关键词或结果值是否多行属性判断通过聚行得到的文本行之间是否需要进行上下切分。5.根据权利要求1所述的征信报告识别方法,其特征为:所述s6中针对当匹配类型是组名称提取的文本内容进行提取的具体方法为:将整理后的文本行与模板信息通过计算特定阈值进行匹配,若匹配成功则生成一个新组,若匹配到征信报告的结束语,则设置步骤s41中识别的结束标志为真,并依照特定格式输出提取结果。6.根据权利要求1所述的征信报告识别方法,其特征为:所述s6中针对匹配类型是通用行提取的文本内容进行提取的具体方法为:将整理后的文本行与模板信息通过计算特定阈值进行匹配,匹配成功则生成一个新的行数据;s621.顺序读取整理后的文本行,对每页末尾和续页文本行都添加标志,并对续页文本行的位置做变换,即通过计算续页文本行和上一页末尾文本行水平和垂直位置的距离,并让续页文本行的位置加上该距离,使得所有文本行都是从上往下依次读取,且文本内容不会缺失或重复,便于后续文本的位置计算;s622.征信报告中每个单元格的大小及位置是固定的,在模板匹配成功后,为了计算需要提取字段区域的左右边界,利用模板信息中配置的左右单元格个数乘以匹配到文本行的
单字高度得到左右边界距离,即用当前文本行区域左边位置减去该距离得到左边界,用当前文本行区域右边位置加上该距离得到右边界;并通过持续判断下一个文本行是否为结果值的方式,得到提取字段区域的上下边界,即如果下一个文本行是结果值,则提取字段区域的上边界为当前文本行的下边界位置,如果不是则继续判断下下个文本行是否是结果值,直到找到结果值,然后利用模板信息中设置的结果值是否多行属性判断是否继续提取后续文本行,直到模板匹配再次成功,则提取字段区域的下边界为新匹配文本行的上边界位置;s623.利用计算得到的当前文本行区域位置进行文本提取,如果当前区域检测到框线信息,则结合框线位置进行文本提取,最终得到对应每个关键词的结果值;s624.将提取结果以最小识别单元保存到行数据中,完成当前文本行匹配提取后,若上一文本行为空行,则将当前文本行数据插入到上一文本行的结果中,否则需要新增一行数据,然后进行下一文本行匹配提取。7.根据权利要求1所述的征信报告识别方法,其特征为:所述s6中针对匹配类型是通用表格提取的文本内容进行提取的具体方法为:将整理后的文本行与模板信息通过计算特定阈值进行匹配,匹配成功则生成一个新的列表数据;s631.顺序读取整理后的文本行,对每页末尾和续页文本行都添加标志,并对续页文本行的位置做变换,即通过计算续页文本行和上一页末尾文本行水平和垂直位置的距离,并让续页文本行的位置加上该距离,使得所有文本行都是从上往下依次读取,且文本内容不会缺失或重复,便于后续文本的位置计算;s632.征信报告中每个单元格的大小及位置是固定的,在模板匹配成功后,为了计算需要提取字段区域的左右边界,利用模板信息中配置的左右单元格个数乘以匹配到文本行的单字高度得到左右边界距离,即用当前文本行区域左边位置减去该距离得到左边界,用当前文本行区域右边位置加上该距离得到右边界;并通过持续判断下一个文本行是否为结果值的方式,得到该表格区域的所有结果值,即如果下一个文本行是结果值,则将结果值所在行的数据保存下来,直到模板匹配再次成功,之后根据模板信息中所设置的关键词是否为主列属性提取主列的个数和位置;s633.利用提取到的主列个数和位置进行分行,得到每一行结果值的上下边界,并利用各个关键词计算的左右边界进行提取,如果该区域检测到框线则利用框线位置,最终得到对应每个关键词的结果值;s634.提取结果将以最小识别单元保存到行数据中,完成当前文本行匹配提取后,若上一文本行为空行,则将当前文本行数据插入到上一文本行的结果中,否则需要新增一行数据,再将行数据保存到列表数据中,然后进行下一文本行匹配提取。8.根据权利要求1所述的征信报告识别方法,其特征为:所述s6中针对匹配类型是还款记录提取的文本内容进行提取的具体方法为:将整理后的文本行与模板信息通过计算特定阈值进行匹配,匹配成功则生成一个新的列表数据;其中还款记录提取是指满足上下关键词-结果值的表格结构,当进行还款记录提取时,需要提取包含左侧的年份数据、上下两列分布的还款记录数据和金额数据,s641.顺序读取整理后的文本行,对每页末尾和续页文本行都添加标志,并对续页文本行的位置做变换,即通过计算续页文本行和上一页末尾文本行水平和垂直位置的距离,并让续页文本行的位置加上该距离,使得所有文本行都是从上往下依次读取,且文本内容不
会缺失或重复,便于后续文本的位置计算;s642.通过计算首位关键词的位置找到年份数据的右边界位置,并利用右边界位置计算得到年份的候选项,并通过年份的属性进行过滤,获得全部年份的位置和个数;s643.利用年份与关键词之间的位置信息来计算还款记录数据和金额数据的上下边界,以及利用关键词之间的位置信息计算还款记录数据和金额数据的左右边界,如果当前区域检测到框线信息,则结合框线信息的位置判断当前文本行区域边界;通过位置信息得到还款记录数据和金额数据的候选项,并利用还款记录数据和金额数据的属性进行过滤,得到对应每个关键词以及年份数据的还款记录数据和金额数据;s644.将提取结果将以最小识别单元保存到行数据中,完成当前文本行匹配提取后,如果上一文本行为空行,则将当前文本行数据插入到上一文本行的结果中,否则需要新增一行数据,再将行数据保存到列表数据中,然后进行下一文本行匹配提取。9.根据权利要求1所述的征信报告识别方法,其特征为:所述s6中针对匹配类型是子组名称提取的文本行内容进行提取的具体方法为:将整理后的文本行与模板信息通过计算特定阈值进行匹配,若匹配成功则生成一个新子组;当匹配到的子组名称包含账户,且账户个数未识别出,需计算当前现有子组的个数进行推算账户个数。10.根据权利要求1所述的征信报告识别方法,其特征为:所述s6中针对匹配类型是单行提取的文本行内容进行提取的具体方法为:将整理后的文本行与模板信息通过计算特定阈值进行匹配,若匹配成功则生成一个新的行数据;通过利用已知的固定关键词对需要单行提取的文本结构进行提取,提取结果将以最小识别单元保存到行数据中,完成当前文本行匹配提取后,将进行下一文本行匹配提取。
技术总结
本发明涉及一种征信报告识别方法,该方法包括获取等待识别的征信报告的图像数据;对图像数据进行预处理;对预处理完成的图像数据进行全文识别,获取文本行内容以及框线信息;针对图像数据中版式结构进行分析,判断图像数据中单双页;将文本行内容与模板信息进行信息类型匹配;针对匹配完成的文本行内容根据信息类型进行提取;针对提取结果进行校验和汇总;将检验汇总后的提取结果依据特定格式输出至xml文件中;该方法可高效地从图像中抽取相关信息,并针对匹配到的字段类型进行结构化提取和字段校验,并运用组结构方式将所有信息进行分类整合出来,最终还原整份征信报告内容分布,其识别准确率高,识别结果完整,且支持多样场景识别,适应性强。适应性强。适应性强。
技术研发人员:何倩倩 饶顶锋 陶坚坚 刘伟
受保护的技术使用者:北京译图智讯科技有限公司
技术研发日:2022.02.17
技术公布日:2022/5/25
转载请注明原文地址:https://tc.8miu.com/read-11358.html