一种基于聚合分离思想的改进型文本检测方法与流程

专利查询2022-07-08 152

1.本发明涉及图像，文本检测，ocr领域，特别涉及一种基于聚合分离思想的改进型文本检测方法。

背景技术：

2.ocr技术目前正在不断发展，而且应用需求也比较大，作为少数比较容易落地的人工智能技术之一，也是大多数企业研究院和各大学校研究的热门技术之一。ocr主要分为文本检测，文本识别和结构化三大板块，对于文本检测目前主要研究分为三大类，第一种，基于anchor的文本检测算法，比较具有代表性的有textbox，ctpn等，第二种是基于分割的文本检测，代表性的算法有psenet，pannet，dbnet等，第三种是基于角点的文本检测，代表性算法有atrr等；
3.目前的方法通过使用把文本框拆分小文本框预测来解决感受野不足的问题，但是这种方式会带来一个问题，后处理合并小文本框只能根据设定的距离阈值判定停止，这样对于两个位置相近的文本容易合并到一起，也就是所谓的粘连问题。本专利的核心就在于通过聚类的方式改进文本的合并，解决文字检测粘连问题，使得文本检测的检测精度提升。

技术实现要素：

4.本发明要解决的技术问题是克服现有技术的缺陷，提供一种基于聚合分离思想的改进型文本检测方法。
5.本发明提供了如下的技术方案：
6.本发明提供一种基于聚合分离思想的改进型文本检测方法，包括以下步骤：
7.一、构建整体的网络模型架构，这里backbone使用的是vgg16的前5层卷积网络，假设图片大小为n*m，经过该层后map大小变成了n/16*m/16,我们构建了一个img2col层来提取map的领近3*3的特征向量，因为map输出的channel为512，经过img2col后channel增加到了512*9，为了增加准确率，我们对宽度方向接了一个lstm来联系上下文，这样可以提升文字间距大的文本的检测效果；最后，我们接了一个fc来进一步融合特征，最终我们模型有3个输出，输出2k个坐标，这里坐标代表anchor中心点的y坐标偏移和缩放比例；输出2k个score，代表着anchor是否为文本，输出4k个聚合向量，用来判别anchor是否属于同一类，其中k代表k种高度的anchor，这里设置为12；
8.二、损失函数构建
9.根据网络输出，我们需要构建小文本的之间的聚类，于是我们构建如下损失函数：
10.[0011][0012]
n代表文本的个数，ai代表相同文本的小文本框的集合，|ai|代表相同文本的小文本框的个数，|bi|代表另一个文本的小文本框的个数，δ
聚合
，δ
离散
为常数，这里我们设置为0.5和3；
[0013]
我们根据这两个损失函数来训练我们的聚合向量，聚合损失函数是用来聚合属于同一个文本的小文本框的聚合向量，而离散损失是用来分离不同文本间的小文本框的聚合向量；
[0014]
整体的损失函数构建如下：
[0015]
l
total
＝l
score
l
ver
μ*(l
聚合
l
离散
)；
[0016]
其中l
score
使用crossentry，l
ver
使用smooth-l1，μ为常数，这里取2；
[0017]
三、检测合并后处理
[0018]
(1)根据网络输出，我们可以得到3个输出，我们根据2k个score，排序后取前2000个得分，根据这2000个得分去取对应的anchor和anchor的中心点y坐标偏移和缩放预测，对anchor进行偏移和缩放后得到坐标，对坐标进行nms后得到剩余的anchor；
[0019]
(2)根据ctpn算法的合并小文本框的方式来合并小文本，我们这里根据排序后得分的index取得对应的小文本框的聚合向量，对聚合向量做层次聚类，得到每个小文本框的类别，然后在小文本框的合并过程中判断两个文本框是否属于同一类即同一文本进行聚合。
[0020]
与现有技术相比，本发明的有益效果如下：
[0021]
提出了聚合向量来改进了基于小文本框合并的文本检测算法，主要可以解决文本检测中邻近文本粘连的问题，提升文本检测的准确和召回率，从而提升ocr的识别效果。
附图说明
[0022]
附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：
[0023]
图1是本发明的检测网络模型图；
[0024]
图2是待检测图片的示意图；
[0025]
图3是检测模型产生的小文本框示意图。
具体实施方式
[0026]
以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。其中附图中相同的标号全部指的是相同的部件。
[0027]
实施例1
[0028]
如图1-3，本发明提供一种基于聚合分离思想的改进型文本检测方法，包括以下步骤：
[0029]
一、构建整体的网络模型架构，这里backbone使用的是vgg16的前5层卷积网络，假
设图片大小为n*m，经过该层后map大小变成了n/16*m/16,我们构建了一个img2col层来提取map的领近3*3的特征向量，因为map输出的channel为512，经过img2col后channel增加到了512*9，为了增加准确率，我们对宽度方向接了一个lstm来联系上下文，这样可以提升文字间距大的文本的检测效果；最后，我们接了一个fc来进一步融合特征，最终我们模型有3个输出，输出2k个坐标，这里坐标代表anchor中心点的y坐标偏移和缩放比例；输出2k个score，代表着anchor是否为文本，输出4k个聚合向量，用来判别anchor是否属于同一类，这里是本专利的核心，也是最大的创新点，其中k代表k种高度的anchor，这里设置为12；
[0030]
二、损失函数构建
[0031]
根据网络输出，我们需要构建小文本的之间的聚类，于是我们构建如下损失函数：
[0032][0033][0034]
n代表文本的个数，ai代表相同文本的小文本框的集合，|ai|代表相同文本的小文本框的个数，|bi|代表另一个文本的小文本框的个数，δ
聚合
，δ
离散
为常数，这里我们设置为0.5和3；
[0035]
我们根据这两个损失函数来训练我们的聚合向量，聚合损失函数是用来聚合属于同一个文本的小文本框的聚合向量，而离散损失是用来分离不同文本间的小文本框的聚合向量；
[0036]
整体的损失函数构建如下：
[0037]
l
total
＝l
score
l
ver
μ*(l
聚合
l
离散
)；
[0038]
其中l
score
使用crossentry，l
ver
使用smooth-l1，μ为常数，这里取2；
[0039]
三、检测合并后处理
[0040]
(1)根据网络输出，我们可以得到3个输出，我们根据2k个score，排序后取前2000个得分，根据这2000个得分去取对应的anchor和anchor的中心点y坐标偏移和缩放预测，对anchor进行偏移和缩放后得到坐标，对坐标进行nms后得到剩余的anchor；
[0041]
(2)根据ctpn算法的合并小文本框的方式来合并小文本，我们这里根据排序后得分的index取得对应的小文本框的聚合向量，对聚合向量做层次聚类，得到每个小文本框的类别，然后在小文本框的合并过程中判断两个文本框是否属于同一类即同一文本进行聚合。
[0042]
如图2所示的文本图片需要检测：
[0043]
通过模型后输出检测的score，竖直坐标的参数和聚合向量，对于小文本框检测算法来说会得到如图3所示的框；
[0044]
如果仅仅根据设定好的距离阈值来合并那么1-10共10个框会被合并成为一个。但是有些时候我们需要将1,2,3,4,5合并和6,7,8,9,10合并共两个框，于是根据本专利算法我们为每个小文本框都配置了一个聚合向量，经过上面损失函数训练过后，1,2,3,4,5的向
量会越来越相近，同理6,7,8,9,10文本框的向量会越来越相近，同时不属于同一文本的小文本框的向量会越来越不同。比如1和6,2和7等等，这样我们便可以根据每个小文本框的向量做一个聚类，判断每个文本框是否属于同一类别，然后结合类别来合并就可以分开文本。
[0045]
最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

转载请注明原文地址:https://tc.8miu.com/read-2668.html

专利

最新回复(0)