一种基于图文模态分区插值的行人重识别数据增强方法

    专利查询2025-06-23  24


    本发明涉及文本行人重识别的检索,更具体地,涉及一种基于图文模态分区插值的行人重识别数据增强方法。


    背景技术:

    1、随着计算机视觉和人工智能技术的发展,文本图像行人重识别已成为计算机视觉领域的重要研究课题之一。文本图像行人重识别任务的目标是通过将(如关于行人穿着、体态等的自然语言描述)与监控摄像头捕捉到的行人图像进行匹配,实现对特定行人的准确识别。这个任务在多个场景中都具有重要应用价值,比如视频监控、公共安全、智能交通等。通过文本描述,我们可以更灵活地查询和识别图像中的行人,特别是在行人面部特征模糊、遮挡或摄像头角度不佳的情况下,文本描述可以作为有力的补充信息,提高行人识别的准确性和效率。由于光照、遮挡、背景变化和行人姿态多变等因素,同一人在不同图像中的表征存在显著差异,给匹配识别带来极大困难。此外,文本图像行人重识别模型训练样本中的文本需要人工标注,这就造成训练样本的获取是有限的。因此,如何获得更充沛和多样化的训练样本以提高模型鲁棒性,是推动行人重识别技术进步的重要目标。

    2、在图像方面,早期使用的简单数据增强技术包括裁剪、旋转、颜色抖动等基于变换的方法。这些方法可以生成多样的样本来增加数据集规模。随后基于gan的生成式数据增强技术被引入,可以学习数据集分布后生成新的高质量的样本。然而,将现有的数据增强方法用于多模态学习是一个挑战,因为这些方法需要保持作为增强数据使用的生成图像-文本对之间的相关性。在cn202311052722.7一种基于图文多模态的行人重识别方法中采用vision transformer模型对图像和文本进行特征提取,另外还构建了一个多模态特征融合网络来将不同模态的特征进行对齐融合,从而解决了不同模态特征难以融合的问题。最后利用融合之后的特征向量与待检测行人的特征向量做损失函数就能实现图文多模态的行人重识别。该方法虽然能够解决文本描述多变带来的困扰,但是,从数据集的角度来看,这种过于追求精确对齐的策略有时可能导致模型在训练过程中过于依赖特定的数据模式,进而引发过拟合问题,限制了模型在未见数据上的泛化能力。


    技术实现思路

    1、本发明要解决的主要技术问题是针对现有技术在训练过程中依赖特定参数导致过拟合的不足,提供一种基于图文模态分区插值的行人重识别数据增强方法。

    2、本发明的目的通过以下技术方案予以实现:

    3、一种基于图文模态分区插值的行人重识别数据增强方法,步骤包括:

    4、s1.获取数据集中的图像-文本对,采用分区差值法生成增强数据样本对pau{iau,tau}:

    5、pau=pasemix(ptg,psr)

    6、其中pasemix表示图文数据增强算法;

    7、s2.对图像数据、文本数据进行视觉与文本特征提取;

    8、s3.分别从全局和局部层面进行特征对齐,进而训练模型;

    9、s4.将增强数据样本对和原始数据作为训练数据输入行人重识别模型进行训练。

    10、进一步地,图文数据增强算法步骤包括:

    11、s11.将给定图像文本的{isr,tsr}定义为目标数据,{itg,ttg}定义为源数据;

    12、s12.根据ttg中的单词获取分块词汇wordm,并在查询语义字典得到其对应的区域partk;

    13、s13.将isr的partk部分线性插值到isr的相应partk部分,得到增强图像样本iau:

    14、

    15、s14.将partk在语义字典中映射tsr相同位置的分块词汇wordn,并用wordn替换ttg中的wordm,得到增强文本样本tau:

    16、tau=replace(ttg[wordm],tsr[wordn])

    17、得到增强数据样本对pau{iau,tau}:

    18、pau=pasemix(ptg,psr)

    19、其中,i和t分别代表相匹配的图像和文本,iau和tau共同组成了增强样本pau,操作符表示分块增强的样本入到原来的目标样本中,λm为线性插值的系数,replace(*)操作表示ttg中wordn部分替换为tsr中wordm。

    20、进一步地,视觉与文本特征提取中以源数据psr、目标数据ptg和增强数据pau作为数据输入。

    21、进一步地,视觉特征的提取步骤包括:

    22、将图像数据采用视觉编码器提取得到全局视觉特征f,然后再将全局视觉特征f均匀地划分为k个不重叠的部分fk∈rc×h′×w(1≤k≤k),从fk中提取局部视觉特征。

    23、进一步地,文本特征的提取步骤包括:

    24、对给定语言其中qt表示句子中的第t个单词,中的每个单词qt映射到其对应的词嵌入,然后再将每个对应的词及其所在位置输入到语言编码器,获得文本特征

    25、进一步地,全局特征对齐步骤包括:

    26、对全局视觉特征f执行全局最大池化,文本特征e执行最大池化,通过卷积层得到:

    27、vg=wggmp(f)

    28、tg=wgrmp(e)

    29、其中wg∈rm×c,vg、tg∈rm,并表示全局视觉和文本特征。

    30、进一步地,全局特征的相似度表示为:

    31、

    32、进一步地,局部特征对齐步骤包括:

    33、s321.预测第i个单词属于第k个部分的概率为:

    34、

    35、其中表示概率,σ表示sigmoid函数;

    36、s322.修改文本特征e表示第k部分的文本描述,为:

    37、

    38、s323.将fk经全局最大池化和卷积来获得第k部分的视觉特征,对ek执行最大池化来生成第k个部分级别的文本特征,并将其馈送到与fk相同的卷积层,得到视觉局部特征和文本局部特征,表示为:

    39、

    40、进一步地,局部特征的相似度表示为:

    41、

    42、进一步地,行人重识别模型的总损失表示为:

    43、

    44、表示标签损失(id loss),表示复合排序损失(cr loss),用来控制损失项的影响参数。

    45、与现有技术相比,有益效果是:

    46、本发明利用语义字典将图像部分和属性词进行映射,然后在此关系下分别对图像部分和局部词汇进行局部线性插值和局部词汇替换,生成增强的图像-文本对,然后增强样本和原始样本一并参与模型的训练。本发明所述方法根据分区语义产生局部增强样本的方法使模型的强化泛化性和适应不同特征的学习。具体而言,基于文本行人重识别数据的特点,我们不再仅仅依赖于模型内部的对齐机制,而是结合外部的数据增强技术,利用图文模态建立联系从而分区插值,来生成多样化的训练样本。这些样本不仅保留了原始数据的核心特征,还融入了新的变化元素,有助于模型学习到更加鲁棒和泛化的特征表示,丰富了训练样本数量,从扩展了数据分布,增强模型的泛化能力,同时对模型融合互补信息,有利于文本检索行人重识别任务精度的提升,在跨域泛化能力具有竞争性。本发明通过对图文两个模块分区插值这样输入级的数据增强方法,我们可以在不改变这些基础组件的前提下,实现特征的有效融合。本发明所述方法提高文本检索行人重识别模型的检索准确率、基模型方法能力和跨域泛化能力,缓解了图文多模态数据增强的不适配问题,同时也增强样本的多样性,避免人工标注数据集的成本。


    技术特征:

    1.一种基于图文模态分区插值的行人重识别数据增强方法,其特征在于,步骤包括:

    2.根据权利要求1所述基于图文模态分区插值的行人重识别数据增强方法,其特征在于,图文数据增强算法步骤包括:

    3.根据权利要求1所述基于图文模态分区插值的行人重识别数据增强方法,其特征在于,视觉与文本特征提取中以源数据psr、目标数据ptg和增强数据pau作为数据输入。

    4.根据权利要求1所述基于图文模态分区插值的行人重识别数据增强方法,其特征在于,视觉特征的提取步骤包括:

    5.根据权利要求1所述基于图文模态分区插值的行人重识别数据增强方法,其特征在于,文本特征的提取步骤包括:

    6.根据权利要求1所述基于图文模态分区插值的行人重识别数据增强方法,其特征在于,全局特征对齐步骤包括:

    7.根据权利要求6所述基于图文模态分区插值的行人重识别数据增强方法,其特征在于,全局特征的相似度表示为:

    8.根据权利要求1所述基于图文模态分区插值的行人重识别数据增强方法,其特征在于,局部特征对齐步骤包括:

    9.根据权利要求8所述基于图文模态分区插值的行人重识别数据增强方法,其特征在于,局部特征的相似度表示为:

    10.根据权利要求4所述基于图文模态分区插值的行人重识别数据增强方法,其特征在于,行人重识别模型的总损失表示为:


    技术总结
    本发明公开了一种基于图文模态分区插值的行人重识别数据增强方法,本发明利用语义字典将图像部分和属性词进行映射,然后在此关系下分别对图像部分和局部词汇进行局部线性插值和局部词汇替换,以生成增强的图像‑文本对,然后增强样本和原始样本一并参与模型的训练。本发明所述方法增强模型的泛化能力,对模型融合互补信息,有利于文本检索行人重识别任务精度的提升。本发明通过对图文两个模块分区插值这样输入级的数据增强方法,可以在不改变模型基础组件的前提下,实现特征的有效融合,解决了训练过程中依赖特定参数导致过拟合,限制了模型在未见数据上的泛化能力的问题。

    技术研发人员:袁鑫攀,李家宝,匡俊桦,甘文光,金思铭
    受保护的技术使用者:湖南工业大学
    技术研发日:
    技术公布日:2024/11/26
    转载请注明原文地址:https://tc.8miu.com/read-29739.html

    最新回复(0)