al.backpro-pagation app-lied to handwrittenzip code recog-nition[j].neural computation,1989, 1(4):541-551)展现的利用深度学习技术识别手写数字。整个神经网络用于提取整张图的全局信息,生成特征向量用于分类。对于手写数字这样简单的数据集来说,达到了95%的正确率。为了生成用于区分行人的特征向量,有研究人员仅使用resnet作为训练行人重识别的基准网络,并使用softmax及triplet等损失函数在market1501等数据集上训练,得到了很好的准确度。文献f(sun yifan,zheng liang, deng weijian,et al.svdnet for pedestrian retrieval[c]//procof ieee international conference on computer vision. washington d.c.,usa:ieee press,2017:3800-3808)基于卷积层权重的相关性假设,认为数据分布的不确定性会造成区分性特征的冗余,削弱了可区分性特征。提出通过对神经网络权重施加正交约束,通过奇异值分解的方法来对网络权重进行去相关迭代训练。以此正交化权重学习以提升特征的可区分性。文献g(zheng zhedong,yangxiaodong,yu zhiding,et al.joint discriminative andgenerative learning for person reident-ification[c]//procof the ieee conference on computer vision and patternrecognition.long beach,ca,usa:ieee press,2019:2138-2147) 创新地将生成式对抗网络(gan)思想结合到行人重识别网络中,以生成式和判别式结合的方法来增强网络对数据的学习。从一定程度上解决数据跨域,行人结构变化等问题造成的识别困难。文献h(dai, zuozhuo,mingqiang chen,xiaodong gu,et al.batch featureerasing for person re-identification and beyond[c]//procof the ieee/cvf international conference on computer vision. seoul,korea:ieee press,2019:3691-3701)认为行人重识别的遮挡,姿态变化问题抑制了某些关键信息的学习。提出了批量块丢弃模块,该模块随机丢弃特征图某位置的子块来去除部分信息。通过基分支及批量丢弃分支的特征图拼接表征图像特征来训练网络,加强关键特征的学习。文献i(sun yifan,zheng liang,yang yi,et al.beyondpart models:person retrieval with refined part pooling(anda strong convolutional baseline)[c]//proc of the europeanconference on computer vision.berlin,germany:springer,2018: 480-496)在强基准网络resnet上对图像特征的提取分块进行,期望从局部特征的角度来改进行人重识别任务。作者针对行人重识别任务提出基于块的卷积神经网络,加强图像特征的分块专注学习。并提出了分块精炼池化用于针对不同图像调整解决特征分块边界与语义块边界不一致的问题,进一步提升了行人重识别网络的性能。全局特征作为表征向量能完整获取整张图的全局信息,但是全局特征容易夹带环境、噪音等非重要信息。该文献将局部信息作为目标表征向量的思路更加符合认知,点到整体的认知思路能过滤部分非重要信息。
[0006]
现有的行人重识别工作都围绕数据增强及普通的位置、通道注意力开展可区分性特征的提取研究,却忽略了通道结构之间的关系信息对于结构特征的学习提升潜力。
技术实现要素:
[0007]
本发明的目的是提供一种基于目标结构关系增强的行人重识别方法。
[0008]
为了实现上述目的,本发明采用了如下技术方案:
[0009]
一种基于目标结构关系增强的行人重识别方法,包括以下步骤:
[0010]
选用resnet50作为主干网络;
[0011]
在resnet50的残差堆叠模块中添加结构增强可堆叠注意力模块来强化各层级特征,以通过结构增强因子提升网络学习可区分性特征的能力;
[0012]
使用标签平滑交叉熵损失联和联和三元组损失来训练模型。
[0013]
进一步优选的,所述结构增强可堆叠注意力模块包括:
[0014]
结构增强向量学习模块,结构增强向量学习模块用于学习包含结构注意力的嵌入向量;
[0015]
结构分离卷积模块,结构分离卷积模块用于学习不同结构所得到的结构注意力嵌入向量的特定映射。
[0016]
进一步优选的,所述结构增强向量学习模块的输入为resnet某层级的特征图
[0017]
x经过元素重排操作得到的特征图xinput;
[0018]
xinput经过三次输入维度为h
×
w、输出维度分别为c1,c1,c2的1
×
1 卷积、批量标准化及relu激活函数,且进一步得到请求向量响应向量和表征自身信息的嵌入向量
[0019]
请求向量的计算如下:
[0020]
q=relu(bn(w
conv
x
input
));
[0021]
响应向量的计算如下:
[0022]
r=relu(bn(w
conv
x
input
));
[0023]
嵌入向量的计算如下:
[0024]
e=relu(bn(w
conv
x
input
));
[0025]
表征某种结构信息的请求向量qi(qi∈q)分别与所有响应rj(rj∈r)向量做对应元素相乘,再对其进行1
×
1卷积得到第i个通道的关系响应向量;
[0026]
考虑表征结构信息的特定通道与其它通道双向的关系,即将某通道的主动响应向量及其被动响应向量堆叠作为通道i的结构关系表征向量si,结构关系向量s可由下式得:
[0027][0028]
其中φ(qi,rj)=conv(qi×rj
),qi×rj
是qi,rj对应元素相乘,conv是卷积核为1
×
1的卷积计算,此时,s是c
×
(2c)
×
1维度的张量,s再经过输入通道为2
×
c,输出通道为c2的1
×
1卷积、批量标准化及relu激活函数得到结构向量,结构向量与嵌入向量e做对应元素相乘,得到强化之后的嵌入向量e
′
,计算如下:
[0029]e′
=(relu(bn(w
conv
s)))
×
e。
[0030]
进一步优选的,所述结构分离卷积模块对表征各通道特定结构关系信息的强化嵌入向量e
′
进行分离映射;
[0031]
针对c维度的特征图,采用c个卷积核wi,i∈c去分别学习每个通道的强化嵌入向量e
′
到注意力强化因子的映射关系,该映射专属于某通道中结构关系信息强化嵌入向量的专属映射,而不是对强化嵌入向量进行统一性衡量;
[0032]
所述结构分离卷积模块的输出公式为:
[0033][0034]
进一步优选的,其中,在resnet50的残差堆叠模块中添加结构增强可堆叠注意力
模块来强化各层级特征,以通过结构增强因子提升网络学习可区分性特征的能力。
[0035]
进一步优选的,其中,使用标签平滑交叉熵损失联和联和三元组损失来训练模型,该联和模型的联和损失函数为:
[0036]
l
loss
=l
triplet
l
lsce
[0037]
l
triplet
=max(d(a,p)-d(a,n) margin,0)
[0038][0039][0040]
其中函数d是距离度量函数,采用为欧氏距离度量;a,p,n分别代表查询、匹配、不匹配图像表征向量;batch是一次训练的批次, class是数据集中包含的行人数,y_pred是网络预测的二维向量; y_pred
ij
表示第i个样本属于j类的概率;qj是平滑因子,λ是平滑度,取0.1;y_labeli是第i个样本所属类别。
[0041]
本发明至少具备以下有益效果:
[0042]
本发明提出结构增强可堆叠注意力模块,该模块能通过局部信息感受全局结构信息来帮助神经网络建立目标结构特征之间的联系,并强化结构信息,以此提炼更加具有区分性的目标结构特征;ses模块通过对通道结构信息的请求向量与响应向量的交互建模来挖掘关系结构信息,再将结构信息与自身代表向量进行交互加强计算来强化结构表征特征;最后对结构表征特征进行结构分离卷积来获得结构加强因子,对原始特征进行加强;此建模方式建立了结构之间的交互信息,使得结构信息不再独立,加强结构信息与自身表征向量的交互,最终的加强因子更加细腻;结构特征有了更大的影响域,能抑制非结构化的噪音,从而学习具备结构加强信息的可区分性特征。
[0043]
本发明通过大量对比实验及神经网络可视化技术,在行人重识别通用数据集cuhk03l及market1501上对结构增强可堆叠注意力模块的强化特征学习能力进行了验证,在cuhk03l及market1501数据集上实现了具有竞争力的性能表现,最终在cuhk03l数据集上达到了 78.0%的平均精度均值及81.3%的rank-1准确率,在market1501数据集上实现了88.2%的平均精度均值及96.2%的rank-1准确率。
附图说明
[0044]
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0045]
图1为现在的行人重识别任务挑战示例图;
[0046]
图2为sesnet整体网络结构示意图;
[0047]
图3为结构增强可堆叠注意力模块示意图;
[0048]
图4为卷积特征提取示意图;
[0049]
图5为结构分离卷积示意图;
[0050]
图6为样例数据示意图;
[0051]
图7为sesnet top-5查询结果图;
[0052]
图8为grad-cam可视化对比热图。
具体实施方式
[0053]
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0054]
1.基于结构特征的注意力增强网络
[0055]
为了提取更具区分性的特征用于表征行人,本发明设计了一种基于目标结构关系的结构增强可堆叠注意力模块来在不同层级的特征图中学习全局结构信息用于加强行人表征向量,该模块可轻易堆叠到任何网络的特征图之后用于增强该特征图的特征表达。结构增强可堆叠注意力模块主要由结构增强向量学习模块及结构分离卷积模块组成。其中,结构增强向量学习模块用于学习包含结构注意力的嵌入向量,而结构分离卷积模块用于学习不同结构所得到的结构注意力嵌入向量的特定映射。
[0056]
1.1.整体网络结构
[0057]
强基线网络resnet50具有很好的特征提取能力,在行人重识别任务中表现优异。本发明在resnet50的基础上进行结构增强可堆叠注意力模块的研究。resnet50可分为5个子模块,由第一个低级特征学习模块及后四个残差堆叠模块构成。后四个残差堆叠模块逐级对特征进行卷积计算,提取不同层级的语义特征用于具体图像处理任务。分别对resnet残差堆叠模块添加结构增强可堆叠注意力 (structure-enhanced stackable attention)模块来强化各层级特征,以通过结构增强因子提升网络学习可区分性特征的能力。整体网络结构(sesnet)如图2所示,行人图像经过ses模块强化的resnet 主干网络,得到1024
×
16
×
8的特征图,再经过平均池化得到1024 维特征向量用于表征行人,最后通过该向量与其他行人表征向量计算度量距离。
[0058]
1.2.结构增强向量学习模块
[0059]
卷积神经网络能够通过卷积核与特征图的卷积计算学习不同层级的结构特征构成特征图通道,不同的通道即表示了不同的结构特征信息。文献(zeiler m d,fergus r.visualizing and understandingconvolutional networks[c]//proc of euro-pean conference oncomputer.vision berlin,germany:springer,2014:818-833.) 通过进行神经网络特征图的可视化技术,观察原图像素在不同层级特征的影响度。低层模块经历的卷积计算较少,负责学习低等级的语义结构信息,如颜色,纹路,简单形状信息,不能去除低等级的图像噪音。高层模块通过卷积计算的堆叠,从低等级特征提取更高等级,可得到更加丰富的语义结构信息,比如不同姿态的手,腿等信息。并且高等级信息能抑制低等级的环境信息及噪音。以往行人重识别研究者们通过实验研究不同的网络结构所带来的高等级信息学习能力,来学习强大的行人表征向量。却极少关注不同层级结构特征之间的交互关系对最终表征向量学习的影响。本发明提出结构增强可堆叠模块来加强resnet50对不同层级的结构特征的学习能力。图3展示了本发明提出的结构增强可堆叠注意力模块,模块由结构增强向量学习模块及结构分离卷积模块组成。
[0060]
结构增强向量学习模块的输入为resnet某层级的特征图该特征图的
各个通道学习到了特定的图像结构信息,通过建立不同通道之间的交互联系来增强网络对行人图像结构关系的挖掘,以强化网络对可区分性特征的学习能力。x经过元素重排 (reshape)操作得到的特征图xinput。xinput经过三次输入维度为h
×
w、输出维度分别为c1,c1,c2的1
×
1卷积、批量标准化(batch normalization)及relu激活函数,进一步得到请求(query)向量响应(response)向量和表征自身信息的嵌入 (embedding)向量即请求向量的计算如下:
[0061]
q=relu(bn(w
conv
x
input
)) (1)
[0062]
响应向量r和嵌入向量e可从公式(1)计算得出。接着,表征某种结构信息的请求向量qi(qi∈q)分别与所有响应rj(rj∈r)向量做对应元素相乘,再对其进行1
×
1卷积得到第i个通道的关系响应向量。为了最大化关系信息的挖掘潜力,本发明将考虑表征结构信息的特定通道与其它通道双向的关系,即将某通道的主动响应向量及其被动响应向量堆叠作为通道i的结构关系表征向量si,结构关系向量s可由式2 得。
[0063][0064]
其中φ(qi,rj)=conv(qi×rj
),qi×rj
是qi,rj对应元素相乘,conv是卷积核为1
×
1的卷积计算。此时,s是c
×
(2c)
×
1维度的张量。s再经过输入通道为2
×
c,输出通道为c2的1
×
1卷积、批量标准化及relu激活函数得到结构向量。结构向量与嵌入向量e做对应元素相乘,得到强化之后的嵌入向量e
′
:
[0065]e′
=(relu(bn(w
conv
s)))
×
e (3)
[0066]
1.3.结构分离卷积模块
[0067]
卷积神经网络的强大之处在于它能通过卷积核与特征图像素进行乘加运算来提取对应像素的某种语义特征,并且该特征通过神经网络自动学习来适应性调节到最适合的抽象特征提取器。如图4所示,卷积计算通过卷积核逐步依次向右、向下移动扫描提取原图的特征得到新的特征图。该特征图表示与卷积核存在相似结构的强度。当卷积核提取原图左上角的特征时,该位置特征与卷积核形状完全一致,得到最大响应值3。当卷积核提取图像中间特征时,由于存在相似结构,得到响应值2。当卷积核提取图像右下角特征时,只有极少部分特征相似,得到响应值1。其余位置均不存在相似结构,均得到响应值0。可知,卷积计算用于提取图像中的某种共性特征以生成表征更高层级信息的特征图。实际应用中,神经网络会根据样本推理结果与标签的差异度量进行反向传播,进而调节卷积核以使卷积核适应性学习到具体的某种结构信息响应图来完成对图像特征的提取。经过网络的学习、推理之后,卷积神经网络每个通道都存储了图像的某种语义结构信息。
[0068]
由于行人重识别的输入图像都是行人,因此图像语义都有着相似的结构信息。而目标检测等任务,每张图的目标数量、目标形态及背景信息都不一样,目标检测网络每层通道所学习到的结构信息存在结构不一致性,是针对特定图像的不同结构的响应信息。针对行人重识别任务输入的结构一致性,特征图每一层的响应存在相似性,本发明认为通道结构信息之间的联系存在结构关系稳定性与关系映射差异性。
[0069]
结构关系稳定性是指每个通道与其他通道之间的关系在不同输入中也存在结构关系稳定性。关系映射差异性是指每个通道与其他通道的关系嵌入向量在统一性衡量为强化因子时存在映射差异性。卷积计算用于提取特征图的共性特征,然而本发明认为结构关
系信息衡量存在差异性。基于此,本发明设计结构分离卷积模块对表征各通道特定结构关系信息的强化嵌入向量e
′
进行分离映射。图5展示了结构分离卷积模块结构。针对c维度的特征图,本发明采用c个卷积核w
i,i
∈c 去分别学习每个通道的强化嵌入向量e
′
到注意力强化因子的映射关系,该映射专属于某通道中结构关系信息强化嵌入向量的专属映射,而不是对强化嵌入向量进行统一性衡量。
[0070][0071]
1.4.损失函数
[0072]
尽管行人重识别数据集中行人类别数确定,针对数据集能使用标签平滑交叉熵损失满足训练要求。但行人重识别任务往往针对开放世界的行人检测任务。为此,本发明使用标签平滑交叉熵损失(label smoothed cross entropy)联和三元组损失(triplet loss)来训练模型。三元组损失通过最大间隔因子margin使表征同目标的向量之间的距离更近,表征不同目标的向量之间的距离更远,以此来强化神经网络对区分性特征向量的学习能力。联和损失函数可由式5表示:
[0073]
l
loss
=l
triplet
l
lsce
ꢀꢀꢀ
(5)
[0074]
l
triplet
=max(d(a,p)-d(a,n) margin,0) (6)
[0075][0076][0077]
其中函数d是距离度量函数,本发明采用的欧氏距离度量。a,p, n分别代表查询、匹配、不匹配图像表征向量。batch是一次训练的批次,class是数据集中包含的行人数,y_pred是网络预测的二维向量。y_pred
ij
表示第i个样本属于j类的概率;qj是平滑因子,λ是平滑度,取0.1。y_labeli是第i个样本所属类别。
[0078]
2.实验结果与分析
[0079]
为了网络在训练初期能够找到合适的搜索空间以保证模型深层的稳定性,在训练的初期采用warmup的训练方式。随着批次的增加,学习率逐渐进行指数衰减,衰减速率为每50个对数据集的完整迭代训练衰减为之前的一半。实验设置随机数种子,保证初始化参数一致。实验结果为五次实验取均值所得,尽量排除随机性结果。
[0080]
2.1.实验数据集
[0081][0082]
为验证重识别模型的鲁棒性,本发明在经典行人重识别数据集 market1501和cuhk03上对所提出网络结构的区分性特征学习能力进行验证。上述两个经典数据集都具有不同图像质量的样本,样本中行人姿态多样、背景多样、大小不一,很好的反应了真实世界中行人图像样本的多样性。matket1501数据集是由清华大学在夏天采集。该数据集拍摄了1501位行人,每位行人都被不同的摄像头拍摄,总计32668个检测框将行人框选标识。该数据集训练集包含751位行人总计12936张多摄像头拍摄的图像,测试集包含750位行人总计
19732 张多摄像头拍摄的图像。cuhk03数据集是由中国的香港中文大学在校园采集。
[0083]
该数据集分为detected、labeled和testsets数据集。其中, detected数据集中的行人框是由检测器检测,labeled数据集中的行人框是由人工标注。实验在labeled数据集(cuhk03l)共计14096 张行人图像上进行,每位行人都由不同摄像头拍摄,训练集包含767 位行人总计7368张多摄像头拍摄的图像,测试机包含700位行人总计6728张多摄像头拍摄的图像。图6展示了数据集样例图。表1展示了market1501及cuhk03l数据集的样本分布。
[0084]
表1market1501及cuhk03l数据集
[0085][0086]
2.2.实验准备
[0087]
算法在pytorch(v 1.7.0)深度学习框架下实现,操作系统为 ubuntu16.04。硬件配置如下:cpu为intel core i7-7700@3.6ghz
ꢀ×
8,gpu为nvidia gtx1080ti
×
2,内存32gb。推理批次为64,迭代次数为500。使用随机梯度下降(sgd)优化算法进行模型训练,基础学习率为0.0008,并随具体批次执行warmup或者衰减策略进行改变。
[0088]
2.3.实验评估标准
[0089]
实验采用平均精度均值指标map(mean average precision)及累计匹配特征指标cmc(cumulative matching characteristics)的 rank-1等级对实验结果进行评价。测试时指定测试集内的查询图像与候选图像,对测试集所有样本进行特征提取。将查询图像特征与所有候选图像进行相似度衡量。累计匹配特征rank-n指与查询图像相似度排名前n的图像中有正确样本的准确率。平均精度均值指计算所有样本准确率(precision)-召回率(recall)曲线下代表类别精度均值的面积(average-precision)的均值。准确率(pre)及召回率 (rec)由式(8)及式(9)计算。
[0090][0091][0092]
其中,tp代表真正样本(trueposition),fp代表假正样本 (falsepositive),fn代表假负样本(falsenegative)。
[0093]
2.4.实验结果分析
[0094]
本发明方法在market1501及cuhk03l数据集上进行验证。实验结果图7展示了随机样本的rank-5查询结果。蓝色框图代表查询图,红色实线框图代表查询正确的结果,黄色虚线框图代表查询错误的结果,从图中可以看出,sesnet能准确找到与查询图对应的行人样本,尽管图例存在错误匹配样本,但该样本的外观及姿态都与查询图像极为相似,这也从侧面反映了sesnet查找特征的准确性及该任务存在的巨大挑战。
[0095]
本发明也分别对ses模块的两部分子模块进行了消融实验以验证ses模块的有效性,并且对比了强基线(baseline)网络resnet 构建的特征学习网络的性能表现。实验结果如表2所示,其中,ses
‑ꢀ
代表无结构分离卷积的ses模块。
[0096]
表2 ses模块消融实验
[0097][0098]
由表2可知,当ses模块未采用结构分离卷积时,ses-仍通过结构增强向量模块及普通1
×
1卷积成功建立了目标结构之间的关系,使得网络学习到了注意力加强因子,准确度得到很大提升。由于ses
‑ꢀ
没有对不同结构的增强向量进行单独映射,不能最大程度挖掘结构间的关系,因此准确率略逊于ses。对ses-模块采用结构分离卷积,即 ses模块,则经过ses模块对行人特征结构的增强,准确率再次得到提升。最终,baseline在cuhk03l数据集上取得3.5%的map提升,4.0%的rank-1准确率提升。在market1501数据集上得到了4.5%的 map提升,2.0%的rank-1准确率提升。
[0099]
表3 sesnet与先前方法在market1501及cuhk03l的指标
[0100][0101]
表3对比了不同行人重识别方法在market1501数据集及cuhk03l 数据集上的表现。对比基于融合全局特征与局部特征的细粒度特征方法,sesnet通过注意力增强因子加强了用于行人重识别任务的重要特征,从而不再通过其他的分支网络来生成局部特征表示,也不会出现特征不对齐的问题。另一方面,对比其他基于注意力的方法,sesnet 具备更加细粒度的结构关系及不同结构特征之间的特定关系语义,因此,学习到了更加具有区分性地增强因子来增强不同层级的结构特征表示。
[0102]
为了进一步验证sesnet的特征提取效果,本发明使用grad-cam 可视化方法增强神经网络的可解释性,对基线网络resnet及结构增强注意力网络sesnet高层特征图进行了特征可视化。图8展示了 resnet及sesnet对样本特征的感兴趣区域。由热图可见,resnet感兴趣区域随姿态变化而变化,且难以理解。然而,即使人物呈现不同的姿态,sesnet仍然能稳定注意到区分性部位,且抑制了不相关区域的影响。
[0103]
综合上述可知:
[0104]
为了使神经网络能学习到更具备区分性的表征向量,本发明提出了结构增强可堆叠注意力模块来强化强基线网络resnet50的特征学习能力,并且使用强化类间区分性特征学习能力的三元组损失函数联合弱化错误数据影响的标签平滑交叉熵损失来增强网络学习能力。结构增强可堆叠注意力模块通过学习更加细粒度的注意力增强向量来强化结构表征向量,并且使用结构分离卷积来对不同的增强结构向量进行分离映射,得到结构专属的增强因子来增强resnet50网络学习到的不同等级的特征。
[0105]
本发明通过大量对比实验及神经网络可视化技术,在行人重识别通用数据集cuhk03l及market1501上对结构增强可堆叠注意力模块的强化特征学习能力进行了验证,在cuhk03l及market1501数据集上实现了具有竞争力的性能表现。最终在cuhk03l数据集上达到了 78.0%的平均精度均值及81.3%的rank-1准确率,在market1501数据集上实现了88.2%的平均精度均值及96.2%的rank-1准确率。
[0106]
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是本发明的原理,在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明的范围内。本发明要求的保护范围由所附的权利要求书及其等同物界定。
转载请注明原文地址:https://tc.8miu.com/read-400.html