1.本技术涉及计算机
技术领域:
:,尤其涉及一种表格结构识别方法、装置、设备及存储介质。
背景技术:
::2.表格结构识别技术是将表格图片中表格的结构信息识别为机器可读的格式,该格式包含单元格、行和列的跨度从属信息。表格结构识别技术有着十分广泛的应用,例如自动问答和对话系统。3.相关技术中,基于边界提取的方法对于较为规整的表格场景,识别效果比较好,但是对于包含跨越多个表格元素单元格的复杂表格场景,无法准确的识别表格结构。此外,有些复杂表格的单元格边界具有模糊性,造成了表格结构的识别困难。4.因此,有必要提供一种表格结构识别方法、装置、设备及存储介质,可以准确地识别图像中的表格结构。技术实现要素:5.本技术提供了一种表格结构识别方法、装置、设备及存储介质,可以准确地识别图像中的表格结构。6.一方面,本技术提供了一种表格结构识别方法,所述方法包括:7.将表格图像划分成至少两个文本框;8.对每个文本框进行特征提取,得到每个文本框的外观特征、位置特征以及内容特征;所述文本框的外观特征表征所述文本框的图像特征;9.基于各个文本框的外观特征、位置特征以及内容特征,确定外观累积上下文特征集、位置累积上下文特征集以及内容累积上下文特征集;10.对所述外观累积上下文特征集以及所述位置累积上下文特征集进行融合处理,得到第一融合特征;11.对所述位置累积上下文特征集以及所述内容累积上下文特征集进行融合处理,得到第二融合特征;12.基于所述第一融合特征以及所述第二融合特征,得到所述表格图像的表格结构信息;所述表格结构信息包括各个文本框中文本在表格中的行信息、列信息以及单元格信息。13.另一方面提供了一种表格结构识别装置,所述装置包括:14.文本框确定模块,用于将表格图像划分成至少两个文本框;15.特征提取模块,用于对每个文本框进行特征提取,得到每个文本框的外观特征、位置特征以及内容特征;所述文本框的外观特征表征所述文本框的图像特征;16.上下文特征集确定模块,用于基于各个文本框的外观特征、位置特征以及内容特征,确定外观累积上下文特征集、位置累积上下文特征集以及内容累积上下文特征集;17.第一融合模块,用于对所述外观累积上下文特征集以及所述位置累积上下文特征集进行融合处理,得到第一融合特征;18.第二融合模块,用于对所述位置累积上下文特征集以及所述内容累积上下文特征集进行融合处理,得到第二融合特征;19.表格结构信息确定模块,用于基于所述第一融合特征以及所述第二融合特征,得到所述表格图像的表格结构信息;所述表格结构信息包括各个文本框中文本在表格中的行信息、列信息以及单元格信息。20.另一方面提供了一种表格结构识别设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如上所述的表格结构识别方法。21.另一方面提供了一种计算机存储介质,所述计算机存储介质存储有至少一条指令或至少一段程序,所述至少一条指令或至少一段程序由处理器加载并执行以实现如上所述的表格结构识别方法。22.另一方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行以实现如上所述的表格结构识别方法。23.本技术提供的表格结构识别方法、装置、设备及存储介质,具有如下技术效果:24.本技术将表格图像划分成至少两个文本框;对每个文本框进行特征提取,得到每个文本框的外观特征、位置特征以及内容特征;所述文本框的外观特征表征所述文本框的图像特征;基于各个文本框的外观特征、位置特征以及内容特征,确定外观累积上下文特征集、位置累积上下文特征集以及内容累积上下文特征集;对所述外观累积上下文特征集以及所述位置累积上下文特征集进行融合处理,得到第一融合特征;对所述位置累积上下文特征集以及所述内容累积上下文特征集进行融合处理,得到第二融合特征;基于所述第一融合特征以及所述第二融合特征,得到所述表格图像的表格结构信息。本技术通过提取表格图像中的外观特征、位置特征以及内容特征等多模态特征,以解耦的方式分别构建每种特征的累积上下文特征集,提高了两两模态特征对应的融合特征的准确率,从而提高了表格结构信息的识别准确率。附图说明25.为了更清楚地说明本技术实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。26.图1是本技术实施例提供的一种表格结构识别系统的示意图;27.图2是本技术实施例提供的一种表格结构识别方法的流程示意图;28.图3是本技术实施例提供的一种构建多模态特征对应的累积上下文特征集的方法的流程示意图;29.图4是本技术实施例提供的一种确定第一融合特征的方法的流程示意图;30.图5是本技术实施例提供的一种确定表格图像的表格结构信息的方法的流程示意deliverynetwork,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。服务器01可以包括有网络通信单元、处理器和存储器等等。具体的,所述服务器01可以用于将表格图像划分成至少两个文本框;对每个文本框进行特征提取,得到每个文本框的外观特征、位置特征以及内容特征;基于各个文本框的外观特征、位置特征以及内容特征,确定外观累积上下文特征集、位置累积上下文特征集以及内容累积上下文特征集;对所述外观累积上下文特征集以及所述位置累积上下文特征集进行融合处理,得到第一融合特征;对所述位置累积上下文特征集以及所述内容累积上下文特征集进行融合处理,得到第二融合特征;基于所述第一融合特征以及所述第二融合特征,得到所述表格图像的表格结构信息。42.具体的,本技术实施例中,所述客户端02可以包括智能手机、台式电脑、平板电脑、笔记本电脑、数字助理、智能可穿戴设备、智能音箱、车载终端、智能电视等类型的实体设备,也可以包括运行于实体设备中的软体,例如一些服务商提供给用户的网页页面,也可以为该些服务商提供给用户的应用。具体的,所述客户端02可以用于显示表格图像的表格结构信息。43.以下介绍本技术的一种表格结构识别方法,图2是本技术实施例提供的一种表格结构识别方法的流程示意图,本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或服务器产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图2所示,所述方法可以包括:44.s201:将表格图像划分成至少两个文本框。45.在本技术实施例中,表格图像可以为表格对应的图像,该表格图像中可以包括一个或多个表格。文本框可以按照单词或词组进行划分,例如,一个单词或一个词组可以对应一个文本框,文本框可以为单词包围框,一个单词包围框可以包括一个词组、单词或数字。46.s203:对每个文本框进行特征提取,得到每个文本框的外观特征、位置特征以及内容特征;所述文本框的外观特征表征所述文本框的图像特征。47.在本技术实施例中,文本框的位置特征可以根据文本框的几何坐标(x,y,w,h,θ)确定,位置特征可以为fgeom={g1,g2,...,gn}∈rn×d,其中g=m(x/w,y/h,w/w,h/h)t,其中,(x,y)表示文本框的中心点,w、h分别表示文本框的宽和高,w和h分别表示表格图像的宽和高,m∈r4×d为参数矩阵。48.在本技术实施例中,可以采用带有特征金字塔网络(featurepyramidnetworks,fpn)的标准的50层残差网络(res50)作为特征提取网络。在上采样到大小为原始图像大小1/4的金字塔特征图上使用roialign方法进行外观特征提取fapp={f1,f2,...,fn}∈rn×d。外观特征表征文本框的图像特征,文本框的图像特征可以包括但不限于文本框的底色、阴影以及字体特征,字体特征可以包括字体类型、字体大小、字体颜色、字体格式、字符底纹等特征。其中,roialign为一种区域特征聚集方式,roialign的思路为:取消量化操作,使用双线性内插的方法获得坐标为浮点数的像素点上的图像数值,从而将整个特征聚集过程转化为一个连续的操作。49.在一些实施例中,可以使用词向量模型(word2vec)将每个单词包围框对应的文本内容映射到语义空间中。然后,利用一个7×1×d卷积核大小、1步长的卷积层进行文本序列建模,作为内容特征fcont={t1,t2,...,tn}∈rn×d。word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系,该向量为神经网络之隐藏层。50.s205:基于各个文本框的外观特征、位置特征以及内容特征,确定外观累积上下文特征集、位置累积上下文特征集以及内容累积上下文特征集。51.在本技术实施例中,如图3所示,所述基于各个文本框的外观特征、位置特征以及内容特征,确定外观累积上下文特征集、位置累积上下文特征集以及内容累积上下文特征集,包括:52.s2051:基于所述各个文本框的外观特征,构建第一图邻接矩阵;53.在一些实施例中,可以根据多个文件框的外观特征,构建第一图邻接矩阵;先将每个外观特征转化成特征向量,再将特征向量作为图中的点(node),每个点对应的上下文则由邻近算法(knn)进行动态选择,即每个点仅与其邻近的5个点相连,相连的边长根据两个点之间的内积函数确定,计算公式如下:54.gi,japp=prod(fi,fj);其中,i,j∈{1,2,...,n};55.knn(k-nearestneighbor)算法是机器学习算法中最基础、最简单的算法之一。它既能用于分类,也能用于回归。knn通过测量不同特征值之间的距离来进行分类。knn算法的思想非常简单:对于任意n维输入向量,分别对应于特征空间中的一个点,输出为该特征向量所对应的类别标签或预测值。56.knn算法是一种非常特别的机器学习算法,因为它没有一般意义上的学习过程。它的工作原理是利用训练数据对特征向量空间进行划分,并将划分结果作为最终算法模型。存在一个样本数据集合,也称作训练样本集,并且样本集中的每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的数据后,将这个没有标签的数据的每个特征与样本集中的数据对应的特征进行比较,然后提取样本中特征最相近的数据(最近邻)的分类标签。通常选择样本数据集中前k个最相似的数据,这就是knn算法中k的由来,通常k是不大于20的整数。最后,选择k个最相似数据中出现次数最多的类别,作为新数据的分类。本实施例中,k可以取值5,构建外观特征对应的第一图邻接矩阵。57.s2053:基于所述各个文本框的位置特征,构建第二图邻接矩阵;58.在一些实施例中,可以根据多个文件框的位置特征,构建第二图邻接矩阵;先将每个位置特征转化成特征向量,再将特征向量作为图中的点(node),每个点对应的上下文则由knn(k=5)算法进行动态选择,即每个点仅与其邻近的5个点相连,相连的边长根据两个点之间的内积函数确定,计算公式如下:59.gi,jgeom=prod(gi,gj);60.其中,i,j∈{1,2,...,n}。61.s2055:基于所述各个文本框的内容特征,构建第三图邻接矩阵;62.在一些实施例中,可以根据多个文件框的内容特征,构建第二图邻接矩阵;先将每个内容特征转化成特征向量,再将特征向量作为图中的点(node),每个点对应的上下文则由knn(k=5)算法进行动态选择,即每个点仅与其邻近的5个点相连,相连的边长根据两个点之间的内积函数确定,计算公式如下:63.gi,jcont=prod(gi,gj);graphembedding,cge)。81.在一些实施例中,所述对所述外观累积上下文特征集以及所述位置累积上下文特征集进行融合处理,得到第一融合特征,包括:82.基于所述神经协同模块,对所述外观累积上下文特征集以及所述位置累积上下文特征集进行融合处理,得到第一融合特征。83.在本技术实施例中,所述神经协同模块包括第一多头交叉注意力网络和第二多头交叉注意力网络,如图4所示,所述基于所述神经协同模块,对所述外观累积上下文特征集以及所述位置累积上下文特征集进行融合处理,得到第一融合特征,包括:84.s2071:将所述外观累积上下文特征集输入所述第一多头交叉注意力网络,得到第一结果;85.s2073:将所述位置累积上下文特征集输入所述第二多头交叉注意力网络,得到第二结果;86.在本技术实施例中,多头交叉注意力模型(multi-headcrossattention,mca)可以包括第一多头交叉注意力网络和第二多头交叉注意力网络;第一多头交叉注意力网络和第二多头交叉注意力网络具有对称结构,因此,消除了模态特征送入模型顺序不同带来的问题。87.s2075:对所述第一结果以及所述第二结果进行融合处理,得到所述第一融合特征。88.在本技术实施例中,可以通过两个对称结构的多头交叉注意力网络,分别对外观累积上下文特征集、位置累积上下文特征集进行处理,再将两者的处理结果进行融合,从而可以将外观特征与对应的位置特征进行准确地匹配,提高确定的表格结构的准确率。89.在本技术实施例中,所述神经协同模块包括第一归一化层、第二归一化层、第三归一化层、第一前馈层以及第二前馈层,所述对所述第一结果以及所述第二结果进行融合处理,得到所述第一融合特征,包括:90.将所述外观累积上下文特征集输入所述第一多头交叉注意力网络,得到第一结果;91.将所述位置累积上下文特征集输入所述第二多头交叉注意力网络,得到第二结果;92.基于所述第一归一化层对所述第一结果以及所述第二结果进行归一化处理,得到第一归一化结果。93.在本技术实施例中,第一归一化层可以为add&norm层,其中,add表示残差连接(residualconnection)用于防止网络退化,norm表示layernormalization,用于对每一层的激活值进行归一化。94.基于所述第一前馈层对所述第一归一化结果进行处理,得到第一处理结果。95.在本技术实施例中,第一前馈层可以为ffn(position-wisefeed-forwardnetworks)。96.基于所述第二归一化层对所述第一结果以及所述第二结果进行归一化处理,得到第二归一化结果;97.在本技术实施例中,第二归一化层可以为add&norm层,其中,add表示残差连接(residualconnection)用于防止网络退化,norm表示layernormalization,用于对每一层的激活值进行归一化。98.基于所述第二前馈层对所述第二归一化结果进行处理,得到第二处理结果。99.在本技术实施例中,第二前馈层可以为ffn(position-wisefeed-forwardnetworks)。100.在本技术实施例中,在得到第一处理结果以及第二处理结果之后,可以将第一处理结果重新作为第一结果,将第二处理结果重新作为第二结果;并重复上述对第一结果以及第二结果的处理步骤,得到第一更新处理结果以及第二更新处理结果。101.基于所述第三归一化层对所述第一处理结果以及所述第二处理结果进行融合处理,得到所述第一融合特征。102.在本技术实施例中,可以通过多个归一化层对特征进行归一化处理,通过前馈层对归一化特征进行处理,从而得到融合准确率较高的第一融合特征。103.在本技术实施例中,所述基于所述第三归一化层对所述第一处理结果以及所述第二处理结果进行融合处理,得到所述第一融合特征,可以包括:104.基于所述第三归一化层对所述第一更新处理结果以及所述第二更新处理结果进行融合处理,得到所述第一融合特征。105.在本技术实施例中,第三归一化层可以为add&norm层,其中,add表示残差连接(residualconnection)用于防止网络退化,norm表示layernormalization,用于对每一层的激活值进行归一化。106.s209:对所述位置累积上下文特征集以及所述内容累积上下文特征集进行融合处理,得到第二融合特征。107.在本技术实施例中,所述对所述位置累积上下文特征集以及所述内容累积上下文特征集进行融合处理,得到第二融合特征,包括:108.基于所述神经协同模块,对所述位置累积上下文特征集以及所述内容累积上下文特征集进行融合处理,得到第二融合特征。109.在本技术实施例中,可以通过多个归一化层对特征进行归一化处理,通过前馈层对归一化特征进行处理,从而得到融合准确率较高的第二融合特征。110.在本技术实施例中,所述对所述位置累积上下文特征集以及所述内容累积上下文特征集进行融合处理,得到第二融合特征,包括:111.将所述位置累积上下文特征集输入所述第一多头交叉注意力网络,得到第三结果;112.将所述内容累积上下文特征集输入所述第二多头交叉注意力网络,得到第四结果。113.在本技术实施例中,第一多头交叉注意力网络与第二多头交叉注意力网络可以为相同的网络,两种网络的输入特征可以进行调换。114.对所述第三结果以及所述第四结果进行融合处理,得到所述第二融合特征。115.在本技术实施例中,可以通过两个对称结构的多头交叉注意力网络,分别对位置累积上下文特征集、内容累积上下文特征集进行处理,再将两者的处理结果进行融合,从而可以将位置特征与对应的内容特征进行准确地匹配,提高确定的表格结构的准确率。116.在本技术实施例中,所述对所述第三结果以及所述第四结果进行融合处理,得到所述第二融合特征,包括:117.基于所述第一归一化层对所述第三结果以及所述第四结果进行归一化处理,得到第三归一化结果;118.基于所述第一前馈层对所述第三归一化结果进行处理,得到第三处理结果;119.基于所述第二归一化层对所述第三结果以及所述第四结果进行归一化处理,得到第四归一化结果;120.基于所述第二前馈层对所述第四归一化结果进行处理,得到第四处理结果;121.在本技术实施例中,在得到第三处理结果以及第四处理结果之后,可以将第三处理结果重新作为第三结果,将第四处理结果重新作为第四结果;并重复上述对第三结果以及第四结果的处理步骤,得到第三更新处理结果以及第四更新处理结果。122.基于所述第三归一化层对所述第三处理结果以及所述第四处理结果进行融合处理,得到所述第二融合特征。123.在本技术实施例中,如图8所示,两个mca的输出m1和m2分别经过“互锁门”(interlockinggate)结构,相互控制两个模态的信息流得到p1和p2。其中⊙表示hadamard内积,σ表示sigmoid函数。之后,分别经过若干“add&norm”以及“ffn”层得到最终的输出,add表示残差连接(residualconnection)用于防止网络退化,norm表示layernormalization,用于对每一层的激活值进行归一化。124.其中“add&norm”表示加操作和层归一化操作,“ffn”表示前馈层。整个过程定义如下:125.m1=mca1→2(q1,k2,v2),m2=mca2→1(q2,k1,v1);126.p1=σ(m2)⊙m1+m1,p2=σ(m1)⊙m2+m2;127.a1=add&norm(q1,p1),a2=add&norm(q2,p2);128.y1=add&norm(ffn(a1),a1),y2=add&norm(ffn(a2),a2);129.其中mca1→2表示第一个mca,并且q=x1,k=x2,v=x2;mca2→1则表示另一个mca,其中q=x2,k=x1,v=x1。该ncm模块可以累积n层,本方法将n设为3。最终,经过n层累积的输出通过以下操作进行融合y=add&norm(y1(n),y2(n)),通过这种方式,模型能够捕获两种模态上下文特征的双向交互,这将对预测表格结构起到正向作用。至此,就得到了具有模态间上下文交互信息的协同图嵌入e={e1,e2,...,en}∈rn×d。130.s2011:基于所述第一融合特征以及所述第二融合特征,得到所述表格图像的表格结构信息;所述表格结构信息包括各个文本框中文本在表格中的行信息、列信息以及单元格信息。131.在本技术实施例中,如图5所示,所述基于所述第一融合特征以及所述第二融合特征,得到所述表格图像的表格结构信息,包括:132.s20111:基于神经协同模块,对所述第一融合特征以及所述第二融合特征进行融合处理,得到协同图嵌入结果;133.s20113:对所述协同图嵌入结果进行解析,得到所述表格图像的表格结构信息。134.在一些实施例中,如图6所示,所述对所述协同图嵌入结果进行解析,得到所述表格图像的表格结构信息,包括:135.s201131:基于所述协同图嵌入结果,确定至少两个表格特征对,每组表格特征对包括预设数量的表格特征,所述表格特征包括内容特征以及与所述内容特征对应的外观特征和位置特征。136.在本技术实施例中,可以根据协同图嵌入结果,确定至少两个表格特征对,每组表格特征对包括预设数量的表格特征;预设数量可以为图邻接矩阵中特征的数量。例如,图邻接矩阵中的k值为5,即一个特征与其邻近的5个特征构成图邻接矩阵。可以将一个图邻接矩阵对应的特征作为一个表格特征对;一个表格特征基于三种模态特征对应的图邻接矩阵构建而成;可以根据三种图邻接矩阵,将每个内容特征与其对应的外观特征、位置特征进行匹配融合,从而得到融合后的表格特征。137.s201133:将所述至少两个表格特征对按照维度信息进行串联操作,得到表格特征集;所述表格特征集中表格特征位于同一维度;138.在本技术实施例中,可以将表格特征对沿着对应的维数轴(channelaxis)进行串联操作,得到表格特征集;得到的表格特征集可以为多个,每个表格特征集中表格特征位于同一维度。139.s201135:基于所述表格特征集,确定所述表格图像的表格结构信息。140.在一些实施例中,所述神经协同模块包括全连接层,所述基于所述表格特征集,确定所述表格图像的表格结构信息,包括:141.基于所述全连接层对所述表格特征集中表格特征进行分类处理,确定位于同一行的第一表格特征集、位于同一列的第二表格特征集以及位于同一单元格的第三表格特征集;142.在本技术实施例中,可以利用三组全连接层(fc层)预测表格特征集中特征的二分类结果,即可以预测表格特征集中任意两个特征向量,例如第i个和第j个特征向量,是否属于同一行、同一列或同一单元格关系。从而得到位于同一行的第一表格特征集、位于同一列的第二表格特征集以及位于同一单元格的第三表格特征集。143.基于所述第一表格特征集、所述第二表格特征集以及所述第三表格特征集,确定所述表格图像的表格结构信息。144.在本技术实施例中,可以根据位于同一行的第一表格特征集、位于同一列的第二表格特征集以及位于同一单元格的第三表格特征集,确定所述表格图像的表格结构信息,即确定表格的行数,列数以及每个单元格中的文本信息,从而可以构建所述表格图像对应的表格。145.在本技术实施例中,具有模态间上下文交互信息的协同图嵌入e={e1,e2,...,en}∈rn×d。基于该嵌入,将其构成样本对,并沿着维数轴(channelaxis)进行串联操作,得到样本对特征u={u1,1,u1,2,...,ui,j,...,un,n}∈rn2×2de,然后分别用三组fc层预测u的二分类关系,即第i个和第j个cge向量是否属于同一行、同一列或同一单元格关系。可以将同一行、同一列或同一单元格的特征向量设置同一标识信息,标识信息可以为颜色标识、字体大小标识、字体类型标识、字体格式标识等;例如,具有相同颜色的文本框表示它们属于同一结构关系。每个fc组由3个256维的fc层和一个含归一化(softmax)层的二维fc层组成。146.在一些实施例中,如图7所示,图7为多模态表格结构识别方法的结构框架示意图,首先进行多模态特征的提取,得到表格图像每个文本框的外观特征fapp、几何特征(位置特征)fgeom和内容特征fcont;然后得到每种特征的图邻接矩阵,得到外观图gapp、几何图ggeom和内容图gcont;再将每种图分别输入gcn网络,得到每种特征对应的累积上下文特征集;然后将外观累积上下文特征集capp以及位置累积上下文特征集cgeom输入一个ncm进行融合,得到第一融合结果,将位置累积上下文特征集cgeom与内容累积上下文特征集ccont输入另一个ncm进行融合,得到第二融合结果。再将第一融合结果与第二融合结果输入一个ncm进行融合,得到协同图嵌入,从而构建样本对,得到表格结构信息的预测结果,预测结果包括行关系、列关系以及单元格关系。在实际应用中,可以预先对每个网络进行训练,并在训练完成之后进行特征处理。147.本技术分别从外观维度、几何维度和内容维度提取表格元素的多模态特征,并以解耦的方式将它们的上下文关系构建为图。为了充分利用它们在模态内的上下文交互作用,使用gcn进行上下文累积。然后将其送入提出的基于注意力的神经协同模块(ncm),产生具有模态间交互的协同图嵌入(cge)。在cge的基础上,通过结构预测模块对表表格元素之间的关系进行预测,得到最终的表结构。cge可以更好的对表格不同模态内和模态间的关系进行提取建模,从而实现快速、准确地识别表格图像中的表格结构。148.在一个实施例中,分别通过相关技术graphtsr(tablestructurerecognition)、图像分析卷积神经网络(dynamicgraphconvolutionalneuralnetworks,dgcnn)与本实施例的方法进行表格图像的结构识别,得到的测试结果如下表1所示,其中f1-score为召回和精度的综合评价指标。149.表1150.方法精度召回f1-scoregraphtsr95.994.895.3dgcnn97.098.197.6本实施例99.499.299.3151.由以上本技术实施例提供的技术方案可见,本技术实施例将表格图像划分成至少两个文本框;对每个文本框进行特征提取,得到每个文本框的外观特征、位置特征以及内容特征;所述文本框的外观特征表征所述文本框的图像特征;基于各个文本框的外观特征、位置特征以及内容特征,确定外观累积上下文特征集、位置累积上下文特征集以及内容累积上下文特征集;对所述外观累积上下文特征集以及所述位置累积上下文特征集进行融合处理,得到第一融合特征;对所述位置累积上下文特征集以及所述内容累积上下文特征集进行融合处理,得到第二融合特征;基于所述第一融合特征以及所述第二融合特征,得到所述表格图像的表格结构信息。本技术通过提取表格图像中的外观特征、位置特征以及内容特征等多模态特征,以解耦的方式分别构建每种特征的累积上下文特征集,提高了两两模态特征对应的融合特征的准确率,从而提高了表格结构信息的识别准确率。152.本技术实施例还提供了一种表格结构识别装置,如图9所示,所述装置包括:153.文本框确定模块910,用于将表格图像划分成至少两个文本框;154.特征提取模块920,用于对每个文本框进行特征提取,得到每个文本框的外观特征、位置特征以及内容特征;所述文本框的外观特征表征所述文本框的图像特征;155.上下文特征集确定模块930,用于基于各个文本框的外观特征、位置特征以及内容特征,确定外观累积上下文特征集、位置累积上下文特征集以及内容累积上下文特征集;156.第一融合模块940,用于对所述外观累积上下文特征集以及所述位置累积上下文特征集进行融合处理,得到第一融合特征;157.第二融合模块950,用于对所述位置累积上下文特征集以及所述内容累积上下文特征集进行融合处理,得到第二融合特征;158.表格结构信息确定模块960,用于基于所述第一融合特征以及所述第二融合特征,得到所述表格图像的表格结构信息;所述表格结构信息包括各个文本框中文本在表格中的行信息、列信息以及单元格信息。159.在一些实施例中,所述上下文特征集确定模块可以包括:160.第一图邻接矩阵构建单元,用于基于所述各个文本框的外观特征,构建第一图邻接矩阵;161.第二图邻接矩阵构建单元,用于基于所述各个文本框的位置特征,构建第二图邻接矩阵;162.第三图邻接矩阵构建单元,用于基于所述各个文本框的内容特征,构建第三图邻接矩阵;163.外观累积上下文特征集确定单元,用于根据第一图卷积网络对所述第一图邻接矩阵进行卷积处理,得到所述外观累积上下文特征集;164.位置累积上下文特征集确定单元,用于根据第二图卷积网络对所述第二图邻接矩阵进行卷积处理,得到所述位置累积上下文特征集;165.内容累积上下文特征集确定单元,用于根据第三图卷积网络对所述第三图邻接矩阵进行卷积处理,得到所述内容累积上下文特征集。166.在一些实施例中,所述装置还可以包括:167.神经协同模块构建模块,用于基于多头交叉注意力网络构建神经协同模块,所述神经协同模块包括两个多头交叉注意力网络。168.所述第一融合模块包括:169.第一融合特征确定单元,用于基于所述神经协同模块,对所述外观累积上下文特征集以及所述位置累积上下文特征集进行融合处理,得到第一融合特征。170.所述第二融合模块包括:171.第二融合特征确定单元,用于基于所述神经协同模块,对所述位置累积上下文特征集以及所述内容累积上下文特征集进行融合处理,得到第二融合特征。172.在一些实施例中,所述神经协同模块包括第一多头交叉注意力网络和第二多头交叉注意力网络,所述第一融合特征确定单元包括:173.第一结果确定子单元,用于将所述外观累积上下文特征集输入所述第一多头交叉注意力网络,得到第一结果;174.第二结果确定子单元,用于将所述位置累积上下文特征集输入所述第二多头交叉注意力网络,得到第二结果;175.第一融合特征确定子单元,用于对所述第一结果以及所述第二结果进行融合处理,得到所述第一融合特征。176.在一些实施例中,所述神经协同模块包括第一归一化层、第二归一化层、第三归一化层、第一前馈层以及第二前馈层,所述第一融合特征确定子单元包括:177.第一归一化结果确定子单元,用于基于所述第一归一化层对所述第一结果以及所述第二结果进行归一化处理,得到第一归一化结果;178.第一处理结果确定子单元,用于基于所述第一前馈层对所述第一归一化结果进行处理,得到第一处理结果;179.第二归一化结果确定子单元,用于基于所述第二归一化层对所述第一结果以及所述第二结果进行归一化处理,得到第二归一化结果;180.第二处理结果确定子单元,用于基于所述第二前馈层对所述第二归一化结果进行处理,得到第二处理结果;181.第一融合特征子单元,用于基于所述第三归一化层对所述第一处理结果以及所述第二处理结果进行融合处理,得到所述第一融合特征。182.在一些实施例中,所述表格结构信息确定模块包括:183.协同图嵌入结果确定单元,用于基于神经协同模块,对所述第一融合特征以及所述第二融合特征进行融合处理,得到协同图嵌入结果;184.表格结构信息确定单元,用于对所述协同图嵌入结果进行解析,得到所述表格图像的表格结构信息。185.在一些实施例中,所述表格结构信息确定单元包括:186.表格特征对确定子单元,用于基于所述协同图嵌入结果,确定至少两个表格特征对,每组表格特征对包括预设数量的表格特征,所述表格特征包括内容特征以及与所述内容特征对应的外观特征和位置特征;187.表格特征集确定子单元,用于将所述至少两个表格特征对按照维度信息进行串联操作,得到表格特征集;所述表格特征集中表格特征位于同一维度;188.表格结构信息确定子单元,用于基于所述表格特征集,确定所述表格图像的表格结构信息。189.在一些实施例中,所述神经协同模块包括全连接层,所述表格结构信息确定子单元包括:190.分类子单元,用于基于所述全连接层对所述表格特征集中表格特征进行分类处理,确定位于同一行的第一表格特征集、位于同一列的第二表格特征集以及位于同一单元格的第三表格特征集;191.信息确定子单元,用于基于所述第一表格特征集、所述第二表格特征集以及所述第三表格特征集,确定所述表格图像的表格结构信息。192.所述的装置实施例中的装置与方法实施例基于同样地发明构思。193.本技术实施例提供了一种表格结构识别设备,该设备包括处理器和存储器,该存储器中存储有至少一条指令或至少一段程序,该至少一条指令或至少一段程序由该处理器加载并执行以实现如上述方法实施例所提供的表格结构识别方法。194.本技术的实施例还提供了一种计算机存储介质,所述存储介质可设置于终端之中以保存用于实现方法实施例中一种表格结构识别方法相关的至少一条指令或至少一段程序,该至少一条指令或至少一段程序由该处理器加载并执行以实现上述方法实施例提供的表格结构识别方法。195.本技术的实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行以实现上述方法实施例提供的表格结构识别方法。196.可选地,在本技术实施例中,存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地,在本实施例中,上述存储介质可以包括但不限于:u盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。197.本技术实施例所述存储器可用于存储软件程序以及模块,处理器通过运行存储在存储器的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、功能所需的应用程序等;存储数据区可存储根据所述设备的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器还可以包括存储器控制器,以提供处理器对存储器的访问。198.本技术实施例所提供的表格结构识别方法实施例可以在移动终端、计算机终端、服务器或者类似的运算装置中执行。以运行在服务器上为例,图10是本技术实施例提供的一种表格结构识别方法的服务器的硬件结构框图。如图10所示,该服务器1000可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(centralprocessingunits,cpu)1010(中央处理器1010可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置)、用于存储数据的存储器1030,一个或一个以上存储应用程序1023或数据1022的存储介质1020(例如一个或一个以上海量存储设备)。其中,存储器1030和存储介质1020可以是短暂存储或持久存储。存储在存储介质1020的程序可以包括一个或一个以上模块,每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1010可以设置为与存储介质1020通信,在服务器1000上执行存储介质1020中的一系列指令操作。服务器1000还可以包括一个或一个以上电源1060,一个或一个以上有线或无线网络接口1050,一个或一个以上输入输出接口1040,和/或,一个或一个以上操作系统1021,例如windowsservertm,macosxtm,unixtm,linuxtm,freebsdtm等等。199.输入输出接口1040可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器1000的通信供应商提供的无线网络。在一个实例中,输入输出接口1040包括一个网络适配器(networkinterfacecontroller,nic),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,输入输出接口1040可以为射频(radiofrequency,rf)模块,其用于通过无线方式与互联网进行通讯。200.本领域普通技术人员可以理解,图10所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,服务器1000还可包括比图10中所示更多或者更少的组件,或者具有与图10所示不同的配置。201.由上述本技术提供的表格结构识别方法、装置、设备或存储介质的实施例可见,本技术将表格图像划分成至少两个文本框;对每个文本框进行特征提取,得到每个文本框的外观特征、位置特征以及内容特征;所述文本框的外观特征表征所述文本框的图像特征;基于各个文本框的外观特征、位置特征以及内容特征,确定外观累积上下文特征集、位置累积上下文特征集以及内容累积上下文特征集;对所述外观累积上下文特征集以及所述位置累积上下文特征集进行融合处理,得到第一融合特征;对所述位置累积上下文特征集以及所述内容累积上下文特征集进行融合处理,得到第二融合特征;基于所述第一融合特征以及所述第二融合特征,得到所述表格图像的表格结构信息。本技术通过提取表格图像中的外观特征、位置特征以及内容特征等多模态特征,以解耦的方式分别构建每种特征的累积上下文特征集,提高了两两模态特征对应的融合特征的准确率,从而提高了表格结构信息的识别准确率。202.需要说明的是:上述本技术实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。203.本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、设备、存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。204.本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。205.以上所述仅为本技术的较佳实施例,并不用以限制本技术,凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。当前第1页12当前第1页12
技术特征:
1.一种表格结构识别方法,其特征在于,所述方法包括:将表格图像划分成至少两个文本框;对每个文本框进行特征提取,得到每个文本框的外观特征、位置特征以及内容特征;所述文本框的外观特征表征所述文本框的图像特征;基于各个文本框的外观特征、位置特征以及内容特征,确定外观累积上下文特征集、位置累积上下文特征集以及内容累积上下文特征集;对所述外观累积上下文特征集以及所述位置累积上下文特征集进行融合处理,得到第一融合特征;对所述位置累积上下文特征集以及所述内容累积上下文特征集进行融合处理,得到第二融合特征;基于所述第一融合特征以及所述第二融合特征,得到所述表格图像的表格结构信息;所述表格结构信息包括各个文本框中文本在表格中的行信息、列信息以及单元格信息。2.根据权利要求1所述的方法,其特征在于,所述基于各个文本框的外观特征、位置特征以及内容特征,确定外观累积上下文特征集、位置累积上下文特征集以及内容累积上下文特征集,包括:基于所述各个文本框的外观特征,构建第一图邻接矩阵;基于所述各个文本框的位置特征,构建第二图邻接矩阵;基于所述各个文本框的内容特征,构建第三图邻接矩阵;根据第一图卷积网络对所述第一图邻接矩阵进行卷积处理,得到所述外观累积上下文特征集;根据第二图卷积网络对所述第二图邻接矩阵进行卷积处理,得到所述位置累积上下文特征集;根据第三图卷积网络对所述第三图邻接矩阵进行卷积处理,得到所述内容累积上下文特征集。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:基于多头交叉注意力网络构建神经协同模块,所述神经协同模块包括两个多头交叉注意力网络;所述对所述外观累积上下文特征集以及所述位置累积上下文特征集进行融合处理,得到第一融合特征,包括:基于所述神经协同模块,对所述外观累积上下文特征集以及所述位置累积上下文特征集进行融合处理,得到第一融合特征;所述对所述位置累积上下文特征集以及所述内容累积上下文特征集进行融合处理,得到第二融合特征,包括:基于所述神经协同模块,对所述位置累积上下文特征集以及所述内容累积上下文特征集进行融合处理,得到第二融合特征。4.根据权利要求3所述的方法,其特征在于,所述神经协同模块包括第一多头交叉注意力网络和第二多头交叉注意力网络,所述基于所述神经协同模块,对所述外观累积上下文特征集以及所述位置累积上下文特征集进行融合处理,得到第一融合特征,包括:将所述外观累积上下文特征集输入所述第一多头交叉注意力网络,得到第一结果;
将所述位置累积上下文特征集输入所述第二多头交叉注意力网络,得到第二结果;对所述第一结果以及所述第二结果进行融合处理,得到所述第一融合特征。5.根据权利要求4所述的方法,其特征在于,所述神经协同模块包括第一归一化层、第二归一化层、第三归一化层、第一前馈层以及第二前馈层,所述对所述第一结果以及所述第二结果进行融合处理,得到所述第一融合特征,包括:基于所述第一归一化层对所述第一结果以及所述第二结果进行归一化处理,得到第一归一化结果;基于所述第一前馈层对所述第一归一化结果进行处理,得到第一处理结果;基于所述第二归一化层对所述第一结果以及所述第二结果进行归一化处理,得到第二归一化结果;基于所述第二前馈层对所述第二归一化结果进行处理,得到第二处理结果;基于所述第三归一化层对所述第一处理结果以及所述第二处理结果进行融合处理,得到所述第一融合特征。6.根据权利要求3所述的方法,其特征在于,所述基于所述第一融合特征以及所述第二融合特征,得到所述表格图像的表格结构信息,包括:基于所述神经协同模块,对所述第一融合特征以及所述第二融合特征进行融合处理,得到协同图嵌入结果;对所述协同图嵌入结果进行解析,得到所述表格图像的表格结构信息。7.根据权利要求6所述的方法,其特征在于,所述对所述协同图嵌入结果进行解析,得到所述表格图像的表格结构信息,包括:基于所述协同图嵌入结果,确定至少两个表格特征对,每组表格特征对包括预设数量的表格特征,所述表格特征包括内容特征以及与所述内容特征对应的外观特征和位置特征;将所述至少两个表格特征对按照维度信息进行串联操作,得到表格特征集;所述表格特征集中表格特征位于同一维度;基于所述表格特征集,确定所述表格图像的表格结构信息。8.根据权利要求7所述的方法,其特征在于,所述神经协同模块包括全连接层,所述基于所述表格特征集,确定所述表格图像的表格结构信息,包括:基于所述全连接层对所述表格特征集中表格特征进行分类处理,确定位于同一行的第一表格特征集、位于同一列的第二表格特征集以及位于同一单元格的第三表格特征集;基于所述第一表格特征集、所述第二表格特征集以及所述第三表格特征集,确定所述表格图像的表格结构信息。9.一种表格结构识别装置,其特征在于,所述装置包括:文本框确定模块,用于将表格图像划分成至少两个文本框;特征提取模块,用于对每个文本框进行特征提取,得到每个文本框的外观特征、位置特征以及内容特征;所述文本框的外观特征表征所述文本框的图像特征;上下文特征集确定模块,用于基于各个文本框的外观特征、位置特征以及内容特征,确定外观累积上下文特征集、位置累积上下文特征集以及内容累积上下文特征集;第一融合模块,用于对所述外观累积上下文特征集以及所述位置累积上下文特征集进
行融合处理,得到第一融合特征;第二融合模块,用于对所述位置累积上下文特征集以及所述内容累积上下文特征集进行融合处理,得到第二融合特征;表格结构信息确定模块,用于基于所述第一融合特征以及所述第二融合特征,得到所述表格图像的表格结构信息;所述表格结构信息包括各个文本框中文本在表格中的行信息、列信息以及单元格信息。10.一种表格结构识别设备,其特征在于,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如权利要求1-8任一所述的表格结构识别方法。11.一种计算机存储介质,其特征在于,所述计算机存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1-8任一所述的表格结构识别方法。12.一种计算机程序产品,包括计算机指令,其特征在于,所述计算机指令被处理器执行时实现如权利要求1-8任一所述的表格结构识别方法。
技术总结
本申请公开了一种表格结构识别方法、装置、设备及存储介质,可以应用于云技术、人工智能、智慧交通、车联网等各种场景,所述方法包括:将表格图像划分成至少两个文本框;对每个文本框进行特征提取,得到每个文本框的外观特征、位置特征以及内容特征;确定外观累积上下文特征集、位置累积上下文特征集以及内容累积上下文特征集;对外观累积上下文特征集以及位置累积上下文特征集进行融合处理,得到第一融合特征;对位置累积上下文特征集以及内容累积上下文特征集进行融合处理,得到第二融合特征;基于第一融合特征以及第二融合特征,得到表格图像的表格结构信息。本申请提高了表格结构信息的识别准确率。构信息的识别准确率。构信息的识别准确率。
技术研发人员:刘皓 李鑫
受保护的技术使用者:腾讯科技(深圳)有限公司
技术研发日:2022.01.28
技术公布日:2022/5/25
转载请注明原文地址:https://tc.8miu.com/read-25679.html