一种融合空洞卷积的快速场景文本检测方法

    专利查询2022-07-07  190



    1.本发明涉及图像处理领域,具体涉及一种融合空洞卷积的快速场景文本检测方法。


    背景技术:

    2.随着经济社会的高速发展以及智能终端的快速普及,人们获取信息的渠道越来越多样化,图像和视频成为信息传播的主要媒介。不同于一般图像中的视觉元素,图像中出现的文本作为图像中的一个重要内容,往往对视觉信息的表达起着至关重要的作用。如果能检测并识别图像中出现的文本信息,无疑能极大的帮助人们分析和理解这些场景图像中所蕴含的更深层次的信息,进而推动诸如图像搜索、自动驾驶以及办公自动化等技术的发展和应用,为人们的生产和生活提供极大的便利。
    3.自然场景中的文本自身具有背景复杂、文本尺度差异大、文本形状多样化以及文本边缘不明显等诸多不利于检测的特点,通过机器对自然场景图像中的文本进行精确的检测仍然是一项非常具有挑战的任务。
    4.传统的场景文本检测方法依赖人工设计的特征,通过lbp、dpm、hog等方法对输入图像进行传统特征提取,然后使用特定的分类器或者启发式规则对提取出的特征进行分类。比较典型的两类场景文本检测分别是基于连通域的方法和基于滑动检测检测窗的方法。由于这些方法过度的依赖人工设计的特征,无法有效的应对光照强度、图像质量以及文本背景等客观因素的变化,该类文本检测方法鲁棒性较差。
    5.近年来,深度学习如深度卷积神经网络在计算机视觉领域的成功应用促进了自然场景文本检测的研究与发展,这一方法通常利用特定的数据集训练以深度卷积神经网络为基础的网络模型用于自动提取输入图像的基本特征,然后再通过一系列后处理算法得到最终的文本区域。与传统的场景文本检测算法相比,该方法有效的避免了人工设计特征的局限性。目前基于深度学习的场景文本检测算法一般采用大型深度神经网络作为主干网络进行特征提取,文本检测准确率显著但是由于检测模型十分庞大,不利于文本检测算法的移植。在实际应用中,自然场景下的文本检测除了追求文本检测准确率的同时,还需要考虑文本检测的效率,过于庞大的场景文本检测模型势必会出现检测缓慢的问题,从而影响这一场景文本检测算法在实际生活中的应用。


    技术实现要素:

    6.当前基于深度学习的场景文本检测方法通常采用大型深度神经网络作为骨干网络进行特征提取,庞大的文本检测模型会导致检测速度过于缓慢,从而影响了场景文本检测算法的实际应用。针对这一问题,本发明提供了一种融合空洞卷积的快速场景文本检测方法,具体包括以下步骤:
    7.s1、获取文本检测训练数据集,并对训练数据集进行标签生成;
    8.s2、建立融合空洞卷积的快速场景文本检测初步模型;所述融合空洞卷积的快速
    场景文本检测初步模型包括轻量级特征提取模块、空洞卷积模块和可微分二值化模块;
    9.s3、使用步骤s1所述标签生成的训练数据集对步骤s2所述建立的融合空洞卷积的快速场景文本检测初步模型,并使用损失函数计算损失值以训练所述初步模型得到融合空洞卷积的快速场景文本检测模型;
    10.s4、使用步骤s3所述得到的融合空洞卷积的快速场景文本检测模型,对场景图像中的文本进行检测。
    11.步骤s1所述的获取文本检测训练数据集,并对训练数据集进行标签生成,具体为对公共数据集icdar2015和ctw1500的原始标签进行标签生成。
    12.步骤s2所述融合空洞卷积的快速场景文本检测初步模型包括轻量级特征提取模块、空洞卷积模块和可微分二值化模块,具体为轻量级特征提取模块采用efficientnet-b3作为主干网络提取输入图像的特征构建金字塔网络结构;特征融合层增加空洞卷积模块;将这两部分特征进行融合后再连接一个可微分二值化模块。
    13.步骤s3所述使用步骤s1标签生成的训练数据集对步骤s2建立的融合空洞卷积的快速场景文本检测初步模型,并使用损失函数计算损失值以训练所述初步模型得到融合空洞卷积的快速场景文本检测模型,具体采用如下步骤进行训练并得到文本检测模型:
    14.s3.1、将标签生成的文本图像输入到轻量级主干网络efficientnet-b3中提取第一阶段到第五阶段的特征图构建金字塔网络结构;
    15.s3.2、空洞卷积模块分别使用空洞率为1,6,12,18的空洞卷积处理步骤s3.1中提取的1/16的特征图,得到空洞卷积特征;
    16.s3.3、特征融合层将步骤s3.1与步骤s3.2生成的特征进行融合,并利用通道注意力机制对特征进行融合筛选;
    17.s3.4、由步骤s3.3生成的融合特征图对概率图(p)和阈值图(t)进行预测,利用可微分二值化模块将概率图和阈值图结合得到近似的二值图(b),自适应的预测图像中每个位置的阈值,在推理阶段通过边界框形成从近似二值图b中得到文本区域的边界框;
    18.s3.5、步骤s3.4在对融合特征图的概率图p和阈值图t进行预测时,采用如下算式作为预测损失函数:
    19.l=ls α
    ×
    lb β
    ×
    l
    t
    20.式中ls为概率图的损失,lb为二值图的损失,l
    t
    为阈值图的损失,α和β分别设置为1和10,ls和lb均采用二元交叉熵损失(bce),算式如下所示:
    21.ls=lb=∑yi·
    log xi (1-yi)log(1-xi)
    22.本发明公开了一种融合空洞卷积的快速场景文本检测方法,该方法利用轻量级的神经网络替换大型网络用于提取输入图像的特征,解决网络模型参数过大的问题,可以有效的提高文本检测网络模型的效率。在特征融合层增加空洞卷积模块,扩大感受野,在特征提取之后,自上而下的对每一层特征进行逐层融合,并使用通道注意力机制对特征进行融合筛选,提高了网络中特征的利用效率,有效的弥补了轻量级神经网络提取特征不足的问题。该文本检测方法在保持较高检测水平的情况下,可以大幅度降低文本检测模型的参数量,大幅度提升检测速度,实现场景文本的快速检测。
    附图说明
    23.图1.本发明融合空洞卷积的快速场景文本检测方法的流程图;
    24.图2.本发明数据集标签生成示意图;
    25.图3.本发明场景文本检测网络结构流程图;
    26.图4.本发明空洞卷积模块结构图。
    具体实施方式
    27.如图1所示是本发明方法的检测流程示意图:本发明提供了一种融合空洞卷积的快速场景文本检测方法,包括如下步骤:
    28.s1、获取文本检测训练数据集,并对训练数据集进行标签生成;
    29.具体的,在公共数据集icdar2015和ctw1500的原始标签进行标签生成;给定一个场景文本图像,其文本区域的多边形由一组线段来描述:
    [0030][0031]
    式中,n表示顶点的数量,如icdar2015数据集的文本区域由4个顶点构成,使用vatti裁剪算法将多边形g缩小至gs,收缩的偏移量d由原多边形的周长l和面积a共同计算出来:
    [0032][0033]
    其中r是收缩比,一般设置为0.4。通过类似的过程可以为阈值图生成标签,具体操作如下:首先将文本多边形g以相同的偏移量d展开至gd,将gs和gd之间的间隙作为文本区域的边界,通过计算到g中最接近的线段的距离来生成阈值图的标签,如图2所示。
    [0034]
    s2、建立融合空洞卷积的快速场景文本检测初步模型;所述融合空洞卷积的快速场景文本检测初步模型包括轻量级特征提取模块、空洞卷积模块和可微分二值化模块;
    [0035]
    具体的,轻量级特征提取模块采用efficientnet-b3作为主干网络提取输入图像的特征构建金字塔网络结构;特征融合层增加空洞卷积模块;特征融合模块将这两部分特征进行融合后再连接一个可微分二值化模块;文本检测网络模型结构流程图如图3所示。
    [0036]
    s3、使用步骤s1所述标签生成的训练数据集对步骤s2建立的融合空洞卷积的快速场景文本检测初步模型,并使用损失函数计算损失值以调整所述初步模型的参数得到融合空洞卷积的快速场景文本检测模型;
    [0037]
    具体为采用如下步骤进行文本检测初步模型的训练并得到文本检测模型:
    [0038]
    s3.1、将标签生成的文本图像输入到轻量级主干网络efficientnet-b3中提取第一阶段到第五阶段的特征图构建金字塔网络结构;
    [0039]
    s3.2、空洞卷积模块分别使用空洞率为1,6,12,18的空洞卷积处理步骤s3.1中提取的1/16的特征图,得到空洞卷积特征;
    [0040]
    具体的,对主干网络efficientnet-b3的c4即1/16特征图分别以普通1*1的卷积和6,12,18这3中不同的空洞率的3*3的卷积核并行采样,来获得不同的感受野,然后将这4个通道数的多尺度特征进行级联操作,充分捕捉输入图像的上下文信息,如图4所示。
    [0041]
    s3.3、特征融合层将步骤s3.1与步骤s3.2生成的特征进行融合,并利用通道注意
    力机制对特征进行融合筛选;
    [0042]
    s3.4、由步骤s3.3生成的融合特征图对概率图(p)和阈值图(t)进行预测,利用可微分二值化模块将概率图和阈值图结合得到近似的二值图(b),自适应的预测图像中每个位置的阈值,在推理阶段通过边界框形成从近似二值图b中得到文本区域的边界框;
    [0043]
    具体的,经过注意力机制之后的特征图用于预测概率图p和阈值图t,然后通过如下算式建立概率图和阈值图之间的关系,生成近似二值图b:
    [0044][0045]
    其中,k为放大因子,一般设定为50;b
    i,j
    指的是在近似二值图上(i,j)点的值,p
    i,j
    指的是概率图上(i,j)点的值,t
    i,j
    指的是阈值图上(i,j)点的值。可微分的近似二值化函数可以在训练过程中随着网络进行优化,有助于区分文字区域和背景。
    [0046]
    s3.5、步骤s3.4在对融合特征图的概率图p和阈值图t进行预测时,采用如下算式作为预测损失函数:
    [0047]
    l=ls α
    ×
    lb β
    ×
    l
    t
    [0048]
    式中ls为概率图的损失,lb为二值图的损失,l
    t
    为阈值图的损失,α和β分别设置为1和10,ls和lb均采用二元交叉熵损失(bce),算式如下所示:
    [0049]
    ls=lb=∑yi·
    log xi (1-yi)log(1-xi)。
    [0050]
    s4、使用步骤s3得到的融合空洞卷积的快速场景文本检测模型,对场景图像中的文本进行检测。
    转载请注明原文地址:https://tc.8miu.com/read-802.html

    最新回复(0)