基于时空注意力的漫画本分类方法

    专利查询2022-07-07  176



    1.本发明涉及漫画本图像的理解和分类的技术领域,尤其是指一种基于时空注意力的漫画本分类方法。


    背景技术:

    2.漫画本分类是指通过漫画本的图像对漫画本的类型、流派等信息进行自动分类的任务。在电子化阅读漫画成为大势所趋的当下,自动漫画本分类能方便网络平台快速进行新上传漫画的归类,从而更精准地进行用户推荐、类型查找。
    3.漫画本分类是一类新任务,属于多标签的多图像分类任务。目前尚无针对多图漫画本理解的相关技术出现,而常见的视觉领域分类任务不适用于漫画本分类的场景:在自然图像分类领域,图片分类工作无法构建多图像上下文联系;在多图像或多帧分类领域,视频分类、动作识别任务着重于考虑前后帧序列连续性的信息,以进一步分析提取动作信息,但漫画本页面往往是前后帧不连续的,因此传统的多帧分类方法不适用。对漫画本的流派、类型进行分类,需要充分考虑画面中传达的故事、情节、风格等抽象信息,不直接从画面中显式地表现出来,这又是任务的另一大关键问题。


    技术实现要素:

    4.本发明的目的在于克服现有技术的缺点与不足,提出了一种基于时空注意力的漫画本分类方法,构造了一个用于漫画本准确分类的网络模型,利用漫画本图像序列空间上和时间上的重要信息进行漫画本图像的理解,突破了其它相关多图工作直接应用于漫画本数据的准确度瓶颈,进一步可为其它漫画本理解任务提供解决思路。
    5.为实现上述目的,本发明所提供的技术方案为:基于时空注意力的漫画本分类方法,包括以下步骤:
    6.1)数据获取与处理
    7.采集网络漫画本作为漫画本数据集,分割为漫画本片段;将得到的漫画本数据集和网络漫画平台提供的漫画类型标签相匹配,进行标签标注,得到多标签漫画本数据集,并划分为训练集和测试集;
    8.2)模型构建
    9.针对漫画本数据集的特征,为了提取漫画本片段中时间和空间上的重要信息,并利用多标签之间的相关关系,构建基于时空注意力的网络模型,该模型由空间上的多重注意力模块、时间上的自注意力模块和建模标签相关关系的分类器组成;
    10.3)定义损失函数
    11.根据时空注意力的特性和多标签分类任务的训练目标,定义训练所需的损失函数;
    12.4)参数调优
    13.使用步骤1)中的训练集对步骤2)中构建的模型进行训练,获得最优的网络模型参
    数,即得到最优模型;
    14.5)漫画本分类
    15.将测试集的漫画本输入最优模型,得到漫画本片段上的分类结果,再综合分析漫画本所有的片段分类结果,即可得到漫画本的分类结果。
    16.进一步,所述步骤1)包括以下步骤:
    17.1.1)从网络采集漫画本图片,按顺序整理,并分割为长度为p页的图片序列,形成漫画本片段;
    18.1.2)从多个网络漫画平台采集漫画类型标签,为了确保每一本漫画的标签是受到多个平台公允的,采用以下标注方式:假如该漫画被至少3个平台收录,则视为有效漫画;该漫画被半数以上的平台标定的标签,视为这本漫画的最终标签;每一本漫画本具有多个类型标签;
    19.1.3)将多标签漫画本数据集划分为训练集和测试集。
    20.进一步,所述步骤2)包括以下步骤:
    21.2.1)构造空间上的多重注意力模块
    22.模型的输入为漫画本片段,每一页漫画首先通过一个resnet50网络提取初步特征;空间上的多重注意力模块的输入即为初步特征序列;为了提取在同一漫画页上的多个重要区域的信息,在每一页漫画的初步特征上构造多重的空间注意力图:
    [0023][0024]
    式中,fj为第j页漫画的初步特征,j=1,2,...,p,p为输入模型的漫画本片段页数;函数gk(
    ·
    )输出该页漫画的第k个空间注意力图k=1,2,...,k,k为单页特征上产生的空间注意力图总数;函数gk(
    ·
    )由relu层作为激励函数的两层卷积层组成,并采用softmax函数归一化;
    [0025]
    综合多重的空间注意力图关注的区域,获得每一页漫画的代表性特征:
    [0026][0027]
    式中,
    ·
    表示矩阵点乘操作,f
    ′j表示第j页漫画的代表性特征;
    [0028]
    为了防止原始特征丢失,将代表性特征f
    ′j与初步特征fj相加,获得增强后的单页漫画特征将增强后的单页漫画特征经过全局平均池化层处理后,堆叠k页的特征得到漫画特征序列;
    [0029]
    2.2)构造时间上的自注意力模块
    [0030]
    为了关注于漫画本片段时间上的重要页面,提出将transformer编码器作为自注意力模块,应用到基于页序列的视觉媒体上,具体步骤为:漫画特征序列的头部连接一个分类标志,并与位置编码相加,输入l层transformer编码器模块,分类标志所对应的输出状态即为整个漫画本片段的最终表示,记为x;
    [0031]
    2.3)构造建模标签相关关系的分类器
    [0032]
    由于多标签漫画本数据集展现出了标签的相关性,提出采用一个由图卷积网络构造建模标签相关关系的分类器,具体步骤为:将输入所有标签的词嵌入作为图卷积网络的初始结点特征,将从数据集中计算得出的标签之间的共现频率作为相关矩阵,将二者构建
    的类别标签图输入2层图卷积网络,输出的节点最终状态作为每个类别的分类器,记为加权矩阵w;
    [0033]
    通过将加权矩阵w与漫画本片段的最终表示x相乘,并采用sigmoid激活函数获得该漫画本片段的类别概率:
    [0034][0035]
    式中,σ(
    ·
    )表示sigmoid激活函数,表示漫画本片段的类别概率。
    [0036]
    进一步,所述步骤3)包括以下步骤:
    [0037]
    3.1)定义分类损失:为了防止过拟合问题和解决正负样本不均衡问题,采用带有标签平滑化的焦点损失(focal loss)作为分类损失训练多标签分类器;
    [0038]
    3.2)定义空间注意力的多样性损失:为拉大同一漫画页面的空间注意力图两两之间的距离,使不同的注意力图关注于不同的区域,定义空间注意力的多样性损失l
    div

    [0039][0040]
    式中,||
    ·
    ||f表示f范数,p为输入模型的漫画本片段页数,aj是第j页漫画的k个空间注意力图展平后拼接而成的矩阵,i是k
    ×
    k维的单位向量;
    [0041]
    3.3)定义空间注意力的分散性损失:为了让空间注意力图适应和利用漫画本的多窗格结构,空间注意力的分散性损失将同一漫画页面的不同空间注意力图分散至空间上的不同区域,首先计算第j页漫画的区域注意力和矩阵,即一个k
    ×
    k维的矩阵rj,其中的每个元素表示第k个空间注意力图的第q个区域的注意力和,q=1,2,...,k,用公式表示为:
    [0042][0043]
    式中,表示第j页漫画的第k个空间注意力图的第t个元素,每个注意力图被均分为k个区域,δs是每个区域的长度,注意定义空间注意力的分散性损失l
    dis

    [0044][0045]
    式中,tr(
    ·
    )表示矩阵的迹;最小化空间注意力的分散损失等价于使k个空间注意力图分散地关注于k个区域内的重要内容,即使rj逼近单位矩阵i;
    [0046]
    3.4)定义总损失函数
    [0047]
    总损失函数为步骤3.1)、3.2)、3.3)中定义的分类损失、空间注意力的多样性损失和分散性损失的加权和,作为模型最终的训练目标。
    [0048]
    进一步,所述步骤5)包括以下步骤:
    [0049]
    5.1)将测试集的漫画本片段输入最优模型,得到预测的类别概率值
    [0050]
    5.2)类别概率值中低于阈值τ1的类别概率置0,记为
    [0051]
    5.3)为了综合分析得到一本漫画本的分类结果,取这本漫画书包含的所有片段的
    的平均值,得到一本漫画本的类别概率值
    [0052]
    5.4)中类别概率大于阈值τ2的类别即为漫画本的最终分类预测结果。
    [0053]
    本发明与现有技术相比,具有如下优点与有益效果:
    [0054]
    1、本发明第一个提出针对漫画本多图像序列设计的时空注意力分类方法,克服其它多图像分类方法相关工作在漫画本分类任务上存在的问题,提升了分类的准确度。
    [0055]
    2、本发明设计了基于时空注意力的漫画本特征提取的网络模型,构造了空间上的多重注意力模块和时间上的自注意力模块,增强融合时空上的重要信息,提升了漫画本特征提取的鲁棒性。
    [0056]
    3、本发明定义了空间注意力的多样性损失和分散性损失,根据漫画本的窗格排布特点将注意力约束于特定区域,提升了空间注意力的有效性。
    [0057]
    4、本发明构造了建模标签相关关系的分类器,学习多标签分类数据集的标签相关特性,并利用标签平滑化的焦点损失(focal loss)作为改进的分类损失,减小了类间准确度差距,进一步提升了分类的准确度。
    [0058]
    5、本发明提出了一个通用性的漫画本特征提取方法,可以进一步为其它漫画本理解相关任务提供有效的参考思路。
    [0059]
    6、本发明方便网络平台快速进行新上传漫画的归类,从而更精准地进行用户推荐、类型查找,具有现实应用意义。
    附图说明
    [0060]
    图1为本发明方法流程图。
    [0061]
    图2为空间上的多重注意力模块示意图。
    [0062]
    图3为基于时空注意力的网络模型原理图。
    具体实施方式
    [0063]
    下面结合实施例及附图对本发明作进一步详细的描述。
    [0064]
    如图1所示,本实施例所提供的基于时空注意力的漫画本分类方法,其具体情况如下:
    [0065]
    步骤1,采集网络漫画本和对应的类型标签,制作多标签漫画本数据集,包括以下步骤:
    [0066]
    步骤1.1,从网络采集漫画本图片,按页码顺序整理,并分割为长度为10页的漫画本图片序列,即漫画本片段。
    [0067]
    步骤1.2,从多个网络漫画平台采集漫画类型标签,采用以下标注方式:假如该漫画被至少3个平台收录,则视为有效漫画;考虑所有收录该漫画的平台给定的类型标签,如果某一标签被半数以上的平台标定,则被标为漫画本数据集中该漫画的标签之一。每一本漫画本具有多个类型标签。
    [0068]
    步骤1.3,将多标签漫画本数据集划分为训练集和测试集。
    [0069]
    步骤1.4,将每张图片调整为224
    ×
    224分辨率,并将图像像素值从[0,255]归一化到[0,1],再标准化到均值为0.5、方差为0.5的正态分布空间。
    [0070]
    步骤2,构建基于时空注意力的网络模型,包括空间上的多重注意力模块、时间上
    的自注意力模块和建模标签相关关系的分类器,包括以下步骤:
    [0071]
    步骤2.1,初步特征提取。基于时空注意力的网络模型的输入为漫画本片段,每一页漫画首先经过在imagenet上预训练的resnet50提取初步特征。
    [0072]
    步骤2.2,构造空间上的多重注意力模块。空间上的多重注意力模块并行处理每一页漫画,该模块的输入为长度为10的7
    ×7×
    2048的初步特征序列。该模块的结构如图2所示,gk(
    ·
    )输出第j页漫画的第k个空间注意力图总共输出4个空间注意力图,维度分别为7
    ×7×
    1,分别与初步特征点乘之后,对k的维度进行最大池化操作,获得该页漫画的代表性特征f
    ′j,维度为7
    ×7×
    2048。将代表性特征f
    ′j与初步特征fj相加,获得增强后的单页漫画特征维度为7
    ×7×
    2048。最后进行空间上的全局平均池化操作,得到f
    spj
    。堆叠10页的特征后得到漫画特征序列f
    sp

    [0073]
    步骤2.3,构造时间上的自注意力模块。时间上的自注意力模块采用的是多层transformer编码器,输入为:
    [0074]
    z0=[x
    cls
    ,f
    sp
    ] e
    pos
    [0075]
    式中,漫画特征序列f
    sp
    的维度为10
    ×
    2048,x
    cls
    是维度为1
    ×
    2048的分类标识,[
    ·
    ]表示连结操作,e
    pos
    表示位置编码,维度为11
    ×
    2048。每一层transformer编码器用公式表示为:
    [0076]z′
    l
    =z
    l
    msa(ln(z
    l
    ))
    [0077]zl 1
    =z

    l
    mlp(ln(z

    l
    ))
    [0078]
    式中,z
    l
    表示第l层transformer编码器的输入,l=0,1,2,...,5,msa表示多头自注意力块,注意力头的个数为8,ln表示层归一化操作,mlp表示多层感知器。经过l=6层的transformer编码器编码,分类标志所对应的输出状态即为整个漫画本片段的最终表示x,维度为1
    ×
    2048,即为:
    [0079][0080]
    步骤2.4,构造建模标签相关关系的分类器。为了构造建模标签相关关系的分类器,采用双层图卷积网络。输入为类别标签图,由词嵌入作为节点,标签相关矩阵作为边的权重。具体而言,使用预训练的glove词嵌入,如果标签是多个单词,则取它们的词嵌入平均值。多标签漫画本数据集共有18个标签,因此输入的词嵌入向量为18
    ×
    300维。标签相关矩阵从数据集标签之间的共现频率中计算得出,维度为18
    ×
    18。将类别标签图输入双层图卷积网络,第1层图卷积网络的输出维度为18
    ×
    1024,第2层图卷积网络的输出即为每个类别的分类器,记为加权矩阵w,维度为18
    ×
    2048。
    [0081]
    步骤2.5,如图3所示,漫画本片段提取初步特征之后送入空间上的多重注意力模块得到漫画特征序列,再经过时间上的自注意力模块编码为漫画本的最终表示x,将其与建模标签相关关系的分类器生成的加权矩阵w相乘,并采用sigmoid激活函数获得该漫画本片段的类别概率维度为1
    ×
    18。
    [0082]
    步骤3,根据时空注意力的特性和多标签分类任务的训练目标,定义训练所需的损失函数,包括分类损失、空间注意力的多样性损失和分散性损失,包括以下步骤:
    [0083]
    步骤3.1,定义分类损失,即带有标签平滑化的焦点损失(focal loss):
    [0084][0085]
    式中,表示某一漫画本片段某一类别的预测的概率值,y为真实值,γ是聚焦参数,设定为2,y

    是平滑化的真实值:
    [0086][0087]
    式中,参数∈=0.1,类别总数n=18。
    [0088]
    步骤3.2,定义空间注意力的多样性损失:
    [0089][0090]
    式中,||
    ·
    ||f表示f范数,p为输入模型的漫画本片段页数,aj是第j页漫画的k个空间注意力图展平后拼接而成的矩阵,i是k
    ×
    k维的单位向量,k=4。
    [0091]
    步骤3.3,定义空间注意力的分散性损失,首先计算第j页漫画的区域注意力和矩阵,即一个k
    ×
    k维的矩阵rj,其中的每个元素表示第k个空间注意力图的第q个区域的注意力和,q=1,2,...,k,用公式表示为:
    [0092][0093]
    式中,表示第j页漫画的第k个空间注意力图的第t个元素,每个注意力图被均分为k个区域,δs是每个区域的长度,定义空间注意力的分散性损失l
    dis

    [0094][0095]
    式中,tr(
    ·
    )表示矩阵的迹。最小化空间注意力的分散损失等价于使k个空间注意力图分散地关注于k个区域内的重要内容,即使rj逼近单位矩阵i,k=4。
    [0096]
    步骤3.4,定义总损失函数为分类损失、空间注意力的多样性损失和分散性损失的加权和,作为模型最终的训练目标,具体表示为:
    [0097]
    l
    total
    =l
    cls
    λ1l
    div
    λ2l
    dis
    [0098]
    式中,λ1=0.001,λ2=0.0001。
    [0099]
    步骤4,使用步骤1中的漫画本训练集对步骤2中构造的模型进行训练。用在imagenet上预训练的参数初始化resnet50网络,采用动量为0.9、权重衰减为10-4
    的adam优化器,对模型中所有模块同步训练,图卷积网络的学习率设为1e-5,其余部分的学习率为1e-6,经过迭代训练得到模型的最优参数。
    [0100]
    步骤5,进行漫画本分类,包括以下步骤:
    [0101]
    步骤5.1,将漫画本测试集的漫画本片段输入最优模型,得到预测的类别概率值
    [0102]
    步骤5.2,类别概率值中低于阈值τ1=0.3的类别概率置0,记为
    [0103]
    步骤5.3,取这本漫画书包含的所有片段的的平均值,得到一本漫画本的类别概
    率值
    [0104]
    步骤5.4,中类别概率大于阈值τ2=0.3的类别即为漫画本的最终分类预测结果。
    [0105]
    上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
    转载请注明原文地址:https://tc.8miu.com/read-693.html

    最新回复(0)