1.本发明涉及目标检测和域适应的技术领域,尤其是指一种基于代表性特征对齐的域适应目标检测方法。
背景技术:
2.目标检测是指对图像中的物体进行分类和定位,是计算机视觉里面的重要技术之一,主要利用深度神经网络搭建目标检测网络,再用有标签的图像数据集对目标检测网络进行训练,但是有两个缺点:1、目标检测的标签的获取耗时耗力;2、训练好的目标检测网络在不同于图像数据集的新场景下的目标检测性能很差,因为从不同场景采集的图像数据集具有不同的分布,叫做域偏移,域是指有一个确定分布的场景。
3.域适应是针对域偏移的一种解决方案,通过拉近不同域的分布,减小域偏移,有标签的域叫做源域,无标签的域叫做目标域,源域和目标域有相同的类别,但是分布不同;域适应目标检测是指用源域图像数据集和目标域图像数据集训练域适应目标检测网络,提升该网络在目标域上的检测性能,主要通过将域适应目标检测网络不同位置提取的源域图像和目标域图像的特征输入鉴别器进行对抗训练,鉴别器判别输入的特征来自源域还是目标域,域适应目标检测网络混淆鉴别器,两者相互对抗,最终实现特征对齐,但是现有其他方法存在四个不足之处:1、单纯地将源域和目标域的全局特征对齐,忽略了物体的类别信息,不能很好地减小域偏移;2、将域适应目标检测网络输出的预测框和预测类别作为伪标签,实现源域和目标域相同类别的物体的特征对齐,容易受到不准确的伪标签的影响;3、相同类别的物体的特征对齐时,没有考虑物体的局部结构特征和语义鉴别性特征,特征对齐不准确;4、忽视了上下文能够对物体的分类结果起到正则化作用,上下文是指包含整张图像信息的特征。
技术实现要素:
4.本发明的目的在于克服现有技术的缺点与不足,提出了一种基于代表性特征对齐的域适应目标检测方法,通过将源域和目标域的相同类别的物体的代表性特征对齐,实现精确的特征对齐,得到在无标签的新场景下的准确的目标检测结果。
5.为实现上述目的,本发明所提供的技术方案为:一种基于代表性特征对齐的域适应目标检测方法,包括以下步骤:
6.1)数据获取
7.将源域图像数据集和目标域图像数据集均划分为训练集和测试集,源域图像数据集的训练集有标签,目标域图像数据集的训练集没有标签;
8.2)数据处理
9.将源域图像数据集和目标域图像数据集中的图像和标签通过预处理转化为训练域适应目标检测网络所需要的格式;
10.3)模型构建
11.构建一个集成了代表性特征提取模块、多级代表性特征自适应融合模块、代表性特征对齐模块、基于上下文的分类正则化模块和全局特征对齐模块这五个模块的域适应目标检测网络,通过代表性特征对齐,实现精确的特征对齐,提升域适应目标检测网络的泛化能力和在无标签的新场景下的检测性能;
12.4)定义损失函数
13.为代表性特征提取模块、代表性特征对齐模块、基于上下文的分类正则化模块和全局特征对齐模块这四个模块分别定义损失函数,将这四个模块的损失函数加权求和,再和目标检测的损失函数相加,得到用于训练域适应目标检测网络的损失函数;
14.5)参数调优
15.初始化域适应目标检测网络的各层参数,用源域图像数据集的训练集和目标域图像数据集的训练集训练域适应目标检测网络;每次迭代输入一张有标签的源域图像和一张无标签的目标域图像,通过域适应目标检测网络的前向传播计算损失函数,再通过反向传播计算域适应目标检测网络各层的可训练参数的梯度,通过梯度下降法进行参数调优,直至损失函数收敛,得到训练完成的基于代表性特征对齐的域适应目标检测网络;
16.6)检测结果输出
17.将目标域图像数据集的测试集输入训练完成的基于代表性特征对齐的域适应目标检测网络,得到在无标签的新场景下的准确的目标检测结果。
18.进一步,在步骤1)中,源域图像数据集是有标签的图像数据集,表示为:
[0019][0020]
式中,s是源域图像数据集,s代表源域,和分别表示第i张源域图像和第i张源域图像的标签,标签指的是一张图像中物体的边框和物体的类别,ns表示源域图像的数量;
[0021]
目标域图像数据集是无标签的图像数据集,是在不同于源域图像数据集的新场景下采集的,和源域图像数据集有不同的分布,表示为:
[0022][0023]
式中,t是目标域图像数据集,t代表目标域,表示第i张目标域图像,n
t
表示目标域图像的数量;域适应目标检测网络利用有标签的源域图像数据集s和无标签的目标域图像数据集t进行训练,得到训练完成的域适应目标检测网络,然后在无标签的新场景下输出准确的目标检测结果。
[0024]
进一步,所述步骤2)包括以下内容:
[0025]
将源域图像和目标域图像水平翻转,源域图像翻转的同时也将标签进行翻转,扩充数据集的大小至原有数据集的两倍;
[0026]
分别将每张源域图像和每张目标域图像减去人为设定的像素平均值,源域图像和目标域图像的数据范围由此从[0,255]转换到[-255,255];
[0027]
将每张源域图像和目标域图像的图像格式从rgb转换成bgr;
[0028]
将每张源域图像和目标域图像等比缩放至短边长度为600像素,源域图像等比缩放的同时也将标签进行相同的等比缩放;
[0029]
将等比缩放后的源域图像和目标域图像的数据范围从[-255,255]转换到[-1,1]。
[0030]
进一步,在步骤3)中,代表性特征指的是物体的局部结构特征和语义鉴别性特征
的综合,局部结构特征指物体的轮廓、纹理,语义鉴别性特征指包含物体所属类别的语义信息的特征,代表性特征能精确地描述物体,代表性特征对齐指将源域图像中的物体的代表性特征和目标域图像中与源域同类别的物体的代表性特征拉近,提升域适应目标检测网络在目标域图像上的检测性能;
[0031]
构建的域适应目标检测网络是基于faster r-cnn进行改进,整体网络分为主干网络和目标检测头两大部分,主干网络表示为f,f能够对输入的源域图像或目标域图像进行全局特征提取,将f划分为三个中间层,分别表示为f1、f2、f3,输入的源域图像或目标域图像依次经过f1、f2和f3,分别提取全局特征,中间层的层数越高,提取的全局特征包含越高级别的语义信息,再将最后一个中间层f3提取的全局特征输入目标检测头进行目标检测;
[0032]
为了分离出物体的代表性特征,实现精确的代表性特征对齐,构建的域适应目标检测网络集成了五个模块,分别为:
[0033]
a、代表性特征提取模块
[0034]
将第i张源域图像或目标域图像统一记作xi,类别数量记作k,xi对应的第j个中间层提取的全局特征记作fj(xi),对fj(xi)分别进行全局最大池化(gmp)和全局平均池化(gap)后相加,将得到的特征输入一个由全连接层组成的类别权重生成器进行全局特征的多类别分类,类别权重生成器预测k个类别的概率向量,概率向量有k个条目,每个条目表示一个类别在图像中出现的概率,因为源域图像有标签,能够对类别权重生成器进行训练,然后提取类别权重生成器学习到的每个类别的类别权重,设定一个阈值θ,类别的概率低于θ,就将该类别的类别权重置零,由此剔除源域图像或目标域图像中不存在的类别的类别权重,每次迭代需要经过类别选择,只留下源域图像和目标域图像的共有类别的类别权重,再将类别权重和fj(xi)按通道相乘得到对应的代表性特征,表示为:
[0035]fik
=ωk·fj
(xi)
[0036]
式中,f
ik
表示图像xi中类别k的代表性特征,ωk表示类别k的类别权重;
[0037]
b、多级代表性特征自适应融合模块
[0038]
对三个中间层输出的全局特征分别通过代表性特征提取模块(rfe)提取代表性特征,低层网络提取的代表性特征包含物体的局部结构特征,高层网络提取的代表性特征包含物体的语义鉴别性特征,将从三个中间层提取的代表性特征分别输入挤压和激励块(se)之后再进行特征连接,使得多级代表性特征自适应融合,得到精确的代表性特征;
[0039]
c、代表性特征对齐模块
[0040]
构建由k个鉴别器组成的鉴别器组,将第k个类别的代表性特征经过多级代表性特征自适应融合模块后,通过一个梯度反转层(grl)后再输入鉴别器组中的第k个鉴别器进行对抗训练,第k个鉴别器预测输入的第k个类别的代表性特征的域标签,源域的域标签为0,目标域的域标签为1,鉴别器区分代表性特征来自源域还是目标域,主干网络不断混淆鉴别器的判断,两者互相对抗,最终实现源域和目标域对应类别的代表性特征对齐,提高域适应目标检测性能;
[0041]
d、基于上下文的分类正则化模块
[0042]
将目标检测头中的区域建议网络(rpn)生成的候选区域经过roialign之后得到的特征叫做实例特征,每个实例特征分别输入目标检测头中的全连接层进行分类和回归,将主干网络最后一个中间层提取的全局特征缩放至和实例特征的大小相同,该特征包含整张
图像的信息,因此叫做上下文,将上下文和实例特征连接,再次输入全连接层进行分类,然后限制实例特征的分类结果和连接了上下文的实例特征的分类结果相等,实现基于上下文的分类正则化,进一步提高域适应目标检测性能;
[0043]
e、全局特征对齐模块
[0044]
将三个中间层提取的全局特征通过梯度反转层(grl)后分别对应输入三个鉴别器d1、d2和d3实现对抗训练,这三个鉴别器预测输入的全局特征的域标签,鉴别器区分全局特征来自源域还是目标域,主干网络不断混淆鉴别器的判断,两者互相对抗,实现源域和目标域全局特征的对齐,辅助代表性特征对齐。
[0045]
进一步,在步骤4)中,目标检测的损失函数是指faster r-cnn在源域图像上的分类损失和回归损失之和,用l
det
表示,四个模块的损失函数分别为:
[0046]
a、类别权重生成器损失函数
[0047]
代表性特征提取模块里面有一个类别权重生成器,将类别数量表示为k,类别权重生成器预测k个类别的概率向量,单个类别权重生成器损失函数l
cwg
采用交叉熵损失函数,定义为:
[0048][0049]
式中,s表示源域,i表示图像的序号,ns表示源域图像的数量,和分别表示第i张源域图像的类别标签和类别权重生成器预测的k个类别的概率向量,在多级代表性特征自适应融合模块中,对三个中间层输出的全局特征分别提取代表性特征,相应有三个类别权重生成器损失函数,相加得到最终的类别权重生成器损失函数l
cwg
,定义为:
[0050][0051]
式中,m表示中间层的序号,n
l
表示中间层的数量,表示第m个中间层对应的单个类别权重生成器损失函数;
[0052]
b、代表性特征对齐损失函数
[0053]
代表性特征对齐模块里面的由k个鉴别器组成的鉴别器组的对抗训练损失函数叫做代表性特征对齐损失函数lr,lr采用交叉熵损失函数,定义为:
[0054][0055]
式中,s和t分别表示源域和目标域,i和k分别表示图像的序号和类别的序号,ns和n
t
分别表示源域图像的数量和目标域图像的数量,和分别表示第i张源域图像和第i张目标域图像经过多级代表性特征自适应融合模块得到的第k个类别的代表性特征,和分别表示鉴别器组dr中对应第k个类别的鉴别器对和的输出结果;
[0056]
c、基于上下文的分类正则化损失函数
[0057]
基于上下文的分类正则化模块里面使用基于上下文的分类正则化损失函数限制有上下文的实例特征的分类结果和无上下文的实例特征的分类结果相等,基于上下文的分类正则化损失函数l
kl
采用kullback-leibler散度损失函数,表示为:
[0058][0059]
式中,s和t分别表示源域和目标域,i和j分别表示图像的序号和实例特征的序号,ns和n
t
分别表示源域图像的数量和目标域图像的数量,n
ins
表示实例特征的数量,kl表示kullback-leibler散度损失函数,和分别表示第i张源域图像的第j个实例特征的有上下文的分类结果和无上下文的分类结果,和分别表示第i张目标域图像的第j个实例特征的有上下文的分类结果和无上下文的分类结果;
[0060]
d、全局特征对齐损失函数
[0061]
全局特征对齐模块里面的三个鉴别器的对抗训练损失函数之和叫做全局特征对齐损失函数l
hie
,l
hie
采用交叉熵损失函数,定义为:
[0062][0063]
式中,m表示中间层的序号,n
l
表示中间层的数量,s和t分别表示源域和目标域,i表示图像的序号,ns和n
t
分别表示源域图像的数量和目标域图像的数量,dm表示全局特征对齐模块里面对应第m个中间层的鉴别器,和分别表示第i张源域图像和第i张目标域图像,fi表示第i个中间层,和分别表示第i个中间层对和提取的全局特征;
[0064]
将类别权重生成器损失函数、代表性特征对齐损失函数、基于上下文的分类正则化损失函数和全局特征对齐损失函数加权求和,再和目标检测的损失函数相加,得到用于训练域适应目标检测网络的损失函数l
sum
,表示为:
[0065]
l
sum
=l
det
λ1l
cwg-λ2l
hie-λ3l
r-λ4l
kl
[0066]
式中,λ1、λ2、λ3和λ4分别表示类别权重生成器损失函数l
cwg
、全局特征对齐损失函数l
hie
、代表性特征对齐损失函数lr和基于上下文的分类正则化损失函数l
kl
的权重。
[0067]
进一步,在步骤5)中,调优问题表示为:
[0068][0069]
式中,d1、d2和d3表示全局特征对齐模块里面的三个鉴别器,dr表示代表性特征对齐模块里面的鉴别器组,f和fc分别表示域适应目标检测网络的主干网络和目标检测头,max和min分别表示对于其各自下方的模块求解使得右式最大和最小的参数值,鉴别器通过加入梯度反转层(grl)进行对抗训练,实现特征对齐,损失函数收敛时,得到训练完成的基于代表性特征对齐的域适应目标检测网络。
[0070]
进一步,在步骤6)中,采用平均精度均值(map)对训练完成的基于代表性特征对齐的域适应目标检测网络进行评估,并将平均精度均值的阈值设置为0.5,再将目标域图像数据集的测试集输入训练完成的基于代表性特征对齐的域适应目标检测网络,得到在无标签的新场景下的准确的目标检测结果。
[0071]
本发明与现有技术相比,具有如下优点与有益效果:
[0072]
1、本发明首次将物体的局部结构特征和语义鉴别性特征聚合在一起,得到物体的代表性特征,然后通过代表性特征对齐,得到准确的域适应目标检测结果。
[0073]
2、本发明的多级代表性特征自适应融合模块得到的代表性特征的鲁棒性更高,在
不同的场景中提取的物体的代表性特征都能很精确地描述物体。
[0074]
3、本发明只将源域图像和目标域图像中同类别的物体的代表性特征对齐,在特征对齐过程中充分考虑了类别信息,提升了特征对齐的准确度。
[0075]
4、本发明利用上下文实现分类正则化,进一步提高域适应目标检测性能。
[0076]
5、本发明能在不同的场景中表现出优异的域适应目标检测性能,使用简单,适用性强,在计算机视觉任务中具有广泛的应用前景。
附图说明
[0077]
图1为本发明方法逻辑流程示意图。
[0078]
图2为本发明构建的基于代表性特征对齐的域适应目标检测网络示意图。
具体实施方式
[0079]
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
[0080]
如图1所示,本实施例所提供的基于代表性特征对齐的域适应目标检测方法,其具体情况如下:
[0081]
1)数据获取,即将源域图像数据集和目标域图像数据集均划分为训练集和测试集。源域图像数据集是有标签的图像数据集,表示为:
[0082][0083]
其中s是源域图像数据集,s代表源域,和分别表示第i张源域图像和第i张源域图像的标签,标签指的是一张图像中物体的边框和物体的类别,ns表示源域图像的数量。目标域图像数据集是无标签的图像数据集,是在不同于源域图像数据集的新场景下采集的,和源域图像数据集有不同的分布,表示为:
[0084][0085]
其中t是目标域图像数据集,t代表目标域,表示第i张目标域图像,n
t
表示目标域图像的数量。域适应目标检测网络利用有标签的源域图像数据集s和无标签的目标域图像数据集t进行训练,得到训练完成的域适应目标检测网络,然后在无标签的新场景下输出准确的目标检测结果。
[0086]
例如s是cityscapes数据集,t是foggy cityscapes数据集,s和t分别采集自正常天气城市道路和有雾天气城市道路,s和t的类别数量、训练集数量和测试集数量相同,分别为8、2975、500。
[0087]
2)数据处理,即将源域图像数据集和目标域图像数据集中的图像和标签通过预处理转化为训练域适应目标检测网络所需要的格式,包括以下内容:
[0088]
将源域图像和目标域图像水平翻转,源域图像翻转的同时也将标签进行翻转,扩充数据集的大小至原有数据集的两倍;
[0089]
分别将每张源域图像和每张目标域图像减去人为设定的像素平均值,源域图像和目标域图像的数据范围由此从[0,255]转换到[-255,255],该像素平均值设定为[102.9801,115.9465,122.7717];
[0090]
将每张源域图像和目标域图像的图像格式从rgb转换成bgr;
[0091]
将每张源域图像和目标域图像等比缩放至短边长度为600像素,源域图像等比缩放的同时也将标签进行相同的等比缩放;
[0092]
将等比缩放后的源域图像和目标域图像的数据范围从[-255,255]转换到[-1,1]。
[0093]
3)模型构建,如图2所示,构建一个集成了代表性特征提取模块、多级代表性特征自适应融合模块、代表性特征对齐模块、基于上下文的分类正则化模块和全局特征对齐模块这五个模块的域适应目标检测网络,通过代表性特征对齐,实现精确的特征对齐,提升域适应目标检测网络的泛化能力和在无标签的新场景下的检测性能。代表性特征指的是物体的局部结构特征和语义鉴别性特征的综合,局部结构特征指物体的轮廓、纹理,语义鉴别性特征指包含物体所属类别的语义信息的特征,代表性特征能精确地描述物体,代表性特征对齐指将源域图像中的物体的代表性特征和目标域图像中与源域同类别的物体的代表性特征拉近。构建的域适应目标检测网络是基于faster r-cnn进行改进,整体网络分为主干网络和目标检测头两大部分,主干网络表示为f,f能够对输入的源域图像或目标域图像进行全局特征提取,将f划分为三个中间层,分别表示为f1、f2、f3,输入的源域图像或目标域图像依次经过f1、f2和f3,分别提取全局特征,中间层的层数越高,提取的全局特征包含越高级别的语义信息,再将最后一个中间层f3提取的全局特征输入目标检测头进行目标检测。基于代表性特征对齐的域适应目标检测网络包含五个模块,分别为:
[0094]
a、代表性特征提取模块
[0095]
将第i张源域图像或目标域图像统一记作xi,类别数量记作k,xi对应的第j个中间层提取的全局特征记作fj(xi),对fj(xi)分别进行全局最大池化(gmp)和全局平均池化(gap)后相加,将得到的特征输入一个由全连接层组成的类别权重生成器进行全局特征的多类别分类,类别权重生成器预测k个类别的概率向量,概率向量有k个条目,每个条目表示一个类别在图像中出现的概率,因为源域图像有标签,能够对类别权重生成器进行训练,然后提取类别权重生成器学习到的每个类别的类别权重,设定一个阈值θ,类别的概率低于θ,就将该类别的类别权重置零,由此剔除源域图像或目标域图像中不存在的类别的类别权重,θ的初始值设置为0.4,每1000次迭代减小0.006直到为零,每次迭代需要经过类别选择,只留下源域图像和目标域图像的共有类别的类别权重,再将类别权重和fj(xi)按通道相乘得到对应的代表性特征,表示为:
[0096]fik
=ωk·fj
(xi)
[0097]
式中,f
ik
表示图像xi中类别k的代表性特征,ωk表示类别k的类别权重;
[0098]
b、多级代表性特征自适应融合模块
[0099]
对三个中间层输出的全局特征分别通过代表性特征提取模块(rfe)提取代表性特征,低层网络提取的代表性特征包含物体的局部结构特征,高层网络提取的代表性特征包含物体的语义鉴别性特征,将从三个中间层提取的代表性特征分别输入挤压和激励块(se)之后再进行特征连接,使得多级代表性特征自适应融合,得到精确的代表性特征;
[0100]
c、代表性特征对齐模块
[0101]
构建由k个鉴别器组成的鉴别器组,将第k个类别的代表性特征经过多级代表性特征自适应融合模块后,通过一个梯度反转层(grl)后再输入鉴别器组中的第k个鉴别器进行对抗训练,第k个鉴别器预测输入的第k个类别的代表性特征的域标签,源域的域标签为0,
目标域的域标签为1,鉴别器区分代表性特征来自源域还是目标域,主干网络不断混淆鉴别器的判断,两者互相对抗,最终实现源域和目标域对应类别的代表性特征对齐,提高域适应目标检测性能;
[0102]
d、基于上下文的分类正则化模块
[0103]
将目标检测头中的区域建议网络(rpn)生成的候选区域经过roialign之后得到的特征叫做实例特征,每个实例特征分别输入目标检测头中的全连接层进行分类和回归,将主干网络最后一个中间层提取的全局特征缩放至和实例特征的大小相同,该特征包含整张图像的信息,因此叫做上下文,将上下文和实例特征连接,再次输入全连接层进行分类,然后限制实例特征的分类结果和连接了上下文的实例特征的分类结果相等,实现基于上下文的分类正则化,进一步提高域适应目标检测性能;
[0104]
e、全局特征对齐模块
[0105]
将三个中间层提取的全局特征通过梯度反转层(grl)后分别对应输入三个鉴别器d1、d2和d3实现对抗训练,这三个鉴别器预测输入的全局特征的域标签,鉴别器区分全局特征来自源域还是目标域,主干网络不断混淆鉴别器的判断,两者互相对抗,实现源域和目标域全局特征的对齐,辅助代表性特征对齐。
[0106]
4)定义损失函数,即为代表性特征提取模块、代表性特征对齐模块、基于上下文的分类正则化模块和全局特征对齐模块这四个模块分别定义损失函数,将这四个模块的损失函数加权求和,再和目标检测的损失函数相加,得到用于训练域适应目标检测网络的损失函数。目标检测的损失函数是指faster r-cnn在源域图像上的分类损失和回归损失之和,用l
det
表示,四个模块的损失函数分别为:
[0107]
a、类别权重生成器损失函数
[0108]
代表性特征提取模块里面有一个类别权重生成器,将类别数量表示为k,类别权重生成器预测k个类别的概率向量,单个类别权重生成器损失函数l
cwg
采用交叉熵损失函数,定义为:
[0109][0110]
其中s表示源域,i表示图像的序号,ns表示源域图像的数量,和分别表示第i张源域图像的类别标签和类别权重生成器预测的k个类别的概率向量,在多级代表性特征自适应融合模块中,对三个中间层输出的全局特征分别提取代表性特征,相应有三个类别权重生成器损失函数,相加得到最终的类别权重生成器损失函数l
cwg
,定义为:
[0111][0112]
其中m表示中间层的序号,n
l
表示中间层的数量,在本方法中n
l
等于3,表示第m个中间层对应的单个类别权重生成器损失函数;
[0113]
b、代表性特征对齐损失函数
[0114]
代表性特征对齐模块里面的由k个鉴别器组成的鉴别器组的对抗训练损失函数叫做代表性特征对齐损失函数lr,lr采用交叉熵损失函数,定义为:
[0115][0116]
其中s和t分别表示源域和目标域,i和k分别表示图像的序号和类别的序号,ns和n
t
分别表示源域图像的数量和目标域图像的数量,和分别表示第i张源域图像和第i张目标域图像经过多级代表性特征自适应融合模块得到的第k个类别的代表性特征,和分别表示鉴别器组dr中对应第k个类别的鉴别器对和的输出结果;
[0117]
c、基于上下文的分类正则化损失函数
[0118]
基于上下文的分类正则化模块里面使用基于上下文的分类正则化损失函数限制有上下文的实例特征的分类结果和无上下文的实例特征的分类结果相等,基于上下文的分类正则化损失函数l
kl
采用kullback-leibler散度损失函数,表示为:
[0119][0120]
其中s和t分别表示源域和目标域,i和j分别表示图像的序号和实例特征的序号,ns和n
t
分别表示源域图像的数量和目标域图像的数量,n
ins
表示实例特征的数量,kl表示kullback-leibler散度损失函数,和分别表示第i张源域图像的第j个实例特征的有上下文的分类结果和无上下文的分类结果,和分别表示第i张目标域图像的第j个实例特征的有上下文的分类结果和无上下文的分类结果;
[0121]
d、全局特征对齐损失函数
[0122]
全局特征对齐模块里面的三个鉴别器的对抗训练损失函数之和叫做全局特征对齐损失函数l
hie
,l
hie
采用交叉熵损失函数,定义为:
[0123][0124]
式中,m表示中间层的序号,n
l
表示中间层的数量,在本方法中n
l
等于3,s和t分别表示源域和目标域,i表示图像的序号,ns和n
t
分别表示源域图像的数量和目标域图像的数量,dm表示全局特征对齐模块里面对应第m个中间层的鉴别器,和分别表示第i张源域图像和第i张目标域图像,fi表示第i个中间层,和分别表示第i个中间层对和提取的全局特征;
[0125]
将类别权重生成器损失函数、代表性特征对齐损失函数、基于上下文的分类正则化损失函数和全局特征对齐损失函数加权求和,再和目标检测的损失函数相加,得到用于训练域适应目标检测网络的损失函数l
sum
,表示为:
[0126]
l
sum
=l
det
λ1l
cwg-λ2l
hie-λ3l
r-λ4l
kl
[0127]
其中λ1、λ2、λ3和λ4分别表示类别权重生成器损失函数l
cwg
、全局特征对齐损失函数l
hie
、代表性特征对齐损失函数lr和基于上下文的分类正则化损失函数l
kl
的权重,λ1、λ2、λ3和λ4分别设置为1.0、0.5、0.2和0.1。
[0128]
5)参数调优,即初始化域适应目标检测网络的各层参数,用源域图像数据集的训练集和目标域图像数据集的训练集训练域适应目标检测网络,每次迭代输入一张有标签的
源域图像和一张无标签的目标域图像,通过域适应目标检测网络的前向传播计算损失函数,再通过反向传播计算域适应目标检测网络各层的可训练参数的梯度,通过梯度下降法进行参数调优,直至损失函数收敛,得到训练完成的基于代表性特征对齐的域适应目标检测网络。调优问题表示为:
[0129][0130]
其中d1、d2和d3表示全局特征对齐模块里面的三个鉴别器,dr表示代表性特征对齐模块里面的鉴别器组,f和fc分别表示域适应目标检测网络的主干网络和目标检测头,max和min分别表示对于其各自下方的模块求解使得右式最大和最小的参数值,鉴别器通过加入梯度反转层(grl)进行对抗训练,实现特征对齐,损失函数收敛时,得到训练完成的基于代表性特征对齐的域适应目标检测网络。
[0131]
6)检测结果输出,即采用平均精度均值(map)对训练完成的基于代表性特征对齐的域适应目标检测网络进行评估,并将平均精度均值的阈值设置为0.5,再将目标域图像数据集的测试集输入训练完成的基于代表性特征对齐的域适应目标检测网络,得到在无标签的新场景下的准确的目标检测结果。
[0132]
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
转载请注明原文地址:https://tc.8miu.com/read-701.html