1.本发明涉及语义分割技术领域,具体为一种基于语义感知的跨域道路场景语义分割方法。
背景技术:
2.图像语义分割是指计算机根据图像的语义内容实现对图像的深层理解,然后进行像素级可视化分割。近些年来,随着人工智能的不断发展,基于深度神经网络的语义分割技术开始越来越多地应用到工业生产、社会安防和交通运输等各个方面,其中,语义分割实现无人驾驶是一项热门研究领域,有着良好的发展前景。语义分割是无人车驾驶的核心算法,当车载摄像头探查到图像后,将图像输入到神经网络中,后台运算设备可以自动将图像分割归类,实现行人和车辆的障碍避让。
3.在近几年的发展中,深度学习语义分割的性能趋于完善,但是研究人员发现,在训练数据集上表现优异的模型在其他场景中应用时效能并不理想,这是因为训练图像(源域)和应用的图像(目标域)存在于两个不同的域,他们的数据分布不一致。对此,科研人员提出了大量基于深度学习的人工智能方法,来应对跨域后语义分割的效能衰减问题,通常这些方法需要提前获取目标域的图像来进一步地将源域分布适应为目标域的分布,从而提高在目标域的分割鲁棒性,但这存在两个问题:其一,目前的大多数方法为了适应新的目标域就必须要提前获得这个目标域的一部分图像数据,这无疑是非常耗费人力物力的,以自动驾驶为例,运营商不可能提前获得所有目标地区的道路图像。其二,这些方法旨在针对某个已知的目标域进行跨域分割,固定好的模型仅能够适用于这个特定的域,不能泛化到其他域当中,不能满足实际应用的需要,因此十分需要提出一个不依赖目标域数据且同时具有可观泛化性能的方法。考虑到游戏引擎可以产生大量拟真图像,同时易于获取对应的标签,为了解决上述问题,本发明在特征空间中处理数据,将数据从中心和分布两个层面进行对齐,同时考虑到不同类别特征的分布差异,对不同类别的特征分别对齐,实现了高鉴别力的域不变特征变换,从而增强模型的多域泛化的性能。
技术实现要素:
4.(一)解决的技术问题
5.针对现有技术的不足,本发明提供了一种基于语义感知的跨域道路场景语义分割方法,具备仅通过源域数据训练所得的模型,不依赖任何目标域数据及数据增强方法,实现高鉴别力的与不变特征转换,从而保证模型具有可观多域泛化性能等优点,解决了上述背景技术中所提出的问题。
6.(二)技术方案
7.本发明提供如下技术方案:一种基于语义感知的跨域道路场景语义分割方法,所述予以分割方法包括以下步骤:
8.s1、将源域图像按照批次送入特征编码器,得到批次内多个图像的特征。
9.s2、将批次内图像特征送入基于语义感知的中心对齐模块,将具有不同风格的源域图像在特征空间内实现全局中心对齐。
10.s3、将中心对齐后的特征送入基于语义感知的分布对齐模块,对批次内多种风格的图像特征进一步实现局部分布对齐。
11.s4、将处理后的特征送入特征解码器,得到与原图尺寸大小一致的语义分割预测结果。
12.s5、对当前批次图像的分割预测结果计算损失值并依据损失值训练网络。
13.s6、保存训练模型,即可得应用于任何场景进行语义分割。
14.优选的,所述步骤s1中,批处理的图像数量至少为2个图像。
15.优选的,所述步骤s2及s3中,需要将分割类别按照数据集中所占比例排序,选取前16类作为语义感知对象。
16.优选的,所述步骤s4中,解码后的图像与原图大小保持一致,此处所述原图指裁剪和放缩后的原始图像,裁剪方式依据图片宽度,在图像长边等步长裁剪,然后统一放缩为分辨率为640*640的图像。网络模型为深度卷积神经网络vgg-16、resnet-50和resnet-101三种。
17.优选的,所述步骤s1中通过特征编码器f(.)对源域批次图像x进行特征提取,获得图像特征f,如下式所示:
18.原始图像特征f=f(x)
19.优选的,所述步骤s2中首先对源域原始特征进行中心对齐,为了提高特征鉴别力,先对类别特征进行粗略的分离:
[0020][0021]
其中,mc为第c类的类别掩膜,由语义分割分类器产生,fc′
为粗略提取获得的第c类特征。
[0022]
优选的,对粗特征进行细化,获得精准的类特征:
[0023][0024]
其中,sigm(.)为sigmoid激活函数,将特征值压缩至[0,1]之内,f3×3(.)为3
×
3的卷积,fc′
,max
和fc′
,avg
为类别粗特征在经过最大值池化和平均值池化后获得的特征值,为逐元素点乘。
[0025]
优选的,将每个获得的精细类别特征单独进行归一化,实现语义感知中心对齐,最后融合成为单个特征图:
[0026][0027]
其中,c=16为类别数量,in(f
″c,mc)为在μc范围内对类别特征f
″c进行实例归一化,实现语义感知中心对齐。
[0028]
与现有技术相比,本发明提供了一种基于语义感知的跨域道路场景语义分割方法,具备以下有益效果:
[0029]
1、该基于语义感知的跨域道路场景语义分割方法,减轻标注成本,训练网络最基础的源域图像可以直接从游戏中获得,相应的标签也是通过引擎直接生成,无需人工标注,
节省大量人力物力。
[0030]
2、该基于语义感知的跨域道路场景语义分割方法,训练方便,模型不需要额外捕获目标域图像,同时也无需对源域数据进行数据增强,不会受到任何图像风格的影响,因此可以普遍适用于多种真实应用场景。
[0031]
3、该基于语义感知的跨域道路场景语义分割方法,精度高,通用性好,在不接触任何目标域数据的基础上,在vgg-16的骨干网络上,gta5到cityscapes、gta5到bdds、gta5到mapillary和gta5到synthia四种跨域语义分割设定上分别达到了38.21,36.30,36.87和28.45的miou;在resnet-50的骨干网络上,在四种跨域语义分割设定上分别达到了39.75,37.34,41.86和30.79的miou;在resnet-101的骨干网络上,在四种跨域语义分割设定上分别达到了45.33,41.18,40.77和31.84的miou。
[0032]
4、该基于语义感知的跨域道路场景语义分割方法,发展前景好,数据不依赖任何目标域数据,而且也不依赖任何数据增强手段,可以和其他的特征归一化及数据增强方法复用,能够满足未来更深的网络和更高的算力条件的需求。
附图说明
[0033]
图1为本发明的流程示意图;
[0034]
图2为本发明的网络结构示意图;
[0035]
图3为本发明的在四个真实场景下的跨域语义分割效果对比图。
具体实施方式
[0036]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0037]
请参阅图1-3,一种基于语义感知的跨域道路场景语义分割方法,所述予以分割方法包括以下步骤:
[0038]
s1、将源域图像按照批次送入特征编码器,得到批次内多个图像的特征。
[0039]
s2、将批次内图像特征送入基于语义感知的中心对齐模块,将具有不同风格的源域图像在特征空间内实现全局中心对齐。
[0040]
s3、将中心对齐后的特征送入基于语义感知的分布对齐模块,对批次内多种风格的图像特征进一步实现局部分布对齐。
[0041]
s4、将处理后的特征送入特征解码器,得到与原图尺寸大小一致的语义分割预测结果。
[0042]
s5、对当前批次图像的分割预测结果计算损失值并依据损失值训练网络。
[0043]
s6、保存训练模型,即可得应用于任何场景进行语义分割。
[0044]
在本实施例中,步骤s1中要有不得少于2个图像作为组成批次参与网络训练,通过特征编码器f(.)对源域批次图像x进行特征提取,获得图像特征f,如下式所示:
[0045]
原始图像特征f=f(x)
[0046]
在本实施例中,步骤s2及s3中需要将分割类别按照数据集中所占比例排序,选取
前16类作为语义感知对象。其中步骤s2中首先对源域原始特征进行中心对齐,为了提高特征鉴别力,先对类别特征进行粗略的分离:
[0047][0048]
其中,mc为第c类的类别掩膜,由语义分割分类器产生,fc′
为粗略提取获得的第c类特征。之后,对粗特征进行细化,获得精准的类特征:
[0049][0050]
其中,sigm(.)为sigmoid激活函数,将特征值压缩至[0,1]之内,f3×3(.)为3
×
3的卷积,fc′
,max
和fc′
,avg
为类别粗特征在经过最大值池化和平均值池化后获得的特征值,为逐元素点乘。最后,将每个获得的精细类别特征单独进行归一化,实现语义感知中心对齐,最后融合成为单个特征图:
[0051][0052]
其中,c=16为类别数量,in(f
″c,mc)为在μc范围内对类别特征f
″c进行实例归一化,实现语义感知中心对齐。
[0053]
在本实施例中,步骤s3将中心对齐的特征进一步实现分布对齐,首先对特征按照通道进行分组,获得批次内第n个图像特征的第m个分组:
[0054][0055]
之后,按照上述通道分组,对组内特征进行实例白化,具体如下式所示:
[0056][0057]
其中,ψ(.)为通道协方差矩阵,i为单位阵,通过将分组内的通道协方差矩阵约束为单位阵,实现通道的去相关,从而达到语义感知分布对齐的目的。
[0058]
需要说明的是,本发明所述的一种基于语义感知的跨域道路场景语义分割方法,通过对成批量的图像数据在特征空间内实现中心对齐和分布对齐,同时保留类特征间距离,实现高鉴别力的域不变特征转换;该方法充分考虑了在应用场景下目标域的数据很难提前获得,提出只在源域进行网络的训练,实现了可靠的跨域分割效果,同时拥有很强的模型通用性。
[0059]
编码过程中,使用了常规的vgg-16、resnet-50和resnet-101进行特征提取;网络结构为端到端的“编码-解码”结构,在解码过程中,每个模块接收前一模块的输出作为输入,然后进行最近邻插值,使得特征图尺寸变为输入的2倍,训练过程中我们采用交叉熵损失的函数形式来衡量网络当前的分割效果并惩罚网络权重。
[0060]
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
转载请注明原文地址:https://tc.8miu.com/read-144.html