一种模型的处理方法、装置及设备与流程

专利查询2025-08-05 57

本文件涉及计算机，尤其涉及一种模型的处理方法、装置及设备。

背景技术：

1、随着人们对自己的隐私数据越来越重视，视觉数据的安全性也越来越重要。通常，可以利用大量无标注视觉数据进行自监督学习和表征学习，来预训练视觉模型，但是如何充分利用模型信息，从而实现对模型的高效训练是视觉领域的重要课题。为此，需要提供一种可以更加高效的进行模型训练，并能够提升需要训练的视觉模型对于图像样本间关系的认知，以进一步增强训练得到的视觉模型的下游泛化能力的技术方案。

技术实现思路

1、本说明书实施例的目的是提供一种可以更加高效的进行模型训练，并能够提升需要训练的视觉模型对于图像样本间关系的认知，以进一步增强训练得到的视觉模型的下游泛化能力的技术方案。

2、为了实现上述技术方案，本说明书实施例是这样实现的：

3、本说明书实施例提供的一种模型的处理方法，所述方法包括：从用于训练学生模型的多批图像样本中获取第一批图像样本，第一批图像样本中包括多张不同的图像样本，以及所述图像样本被掩码处理后的掩码图像。将多张所述图像样本输入到所述学生模型对应的教师模型中，分别得到每张所述图像样本对应的第一预测结果，并将多张所述掩码图像输入到所述学生模型中，分别得到每张所述掩码图像对应的第二预测结果。基于多张所述图像样本对应的第一预测结果，确定多张所述图像样本之间的关联关系信息，并基于多张所述图像样本之间的关联关系信息对每张所述掩码图像对应的第二预测结果进行调制处理，得到每张所述掩码图像对应的重建图像的预测编码信息。基于每张所述图像样本对应的第一预测结果和每张所述掩码图像对应的重建图像的预测编码信息，对所述学生模型进行训练，得到训练后的学生模型。

4、本说明书实施例提供的一种模型的处理装置，所述装置包括：样本获取模块，从用于训练学生模型的多批图像样本中获取第一批图像样本，第一批图像样本中包括多张不同的图像样本，以及所述图像样本被掩码处理后的掩码图像。预测模块，将多张所述图像样本输入到所述学生模型对应的教师模型中，分别得到每张所述图像样本对应的第一预测结果，并将多张所述掩码图像输入到所述学生模型中，分别得到每张所述掩码图像对应的第二预测结果。调制模块，基于多张所述图像样本对应的第一预测结果，确定多张所述图像样本之间的关联关系信息，并基于多张所述图像样本之间的关联关系信息对每张所述掩码图像对应的第二预测结果进行调制处理，得到每张所述掩码图像对应的重建图像的预测编码信息。模型训练模块，基于每张所述图像样本对应的第一预测结果和每张所述掩码图像对应的重建图像的预测编码信息，对所述学生模型进行训练，得到训练后的学生模型。

5、本说明书实施例提供的一种模型的处理设备，所述模型的处理设备包括：处理器；以及被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器：从用于训练学生模型的多批图像样本中获取第一批图像样本，第一批图像样本中包括多张不同的图像样本，以及所述图像样本被掩码处理后的掩码图像。将多张所述图像样本输入到所述学生模型对应的教师模型中，分别得到每张所述图像样本对应的第一预测结果，并将多张所述掩码图像输入到所述学生模型中，分别得到每张所述掩码图像对应的第二预测结果。基于多张所述图像样本对应的第一预测结果，确定多张所述图像样本之间的关联关系信息，并基于多张所述图像样本之间的关联关系信息对每张所述掩码图像对应的第二预测结果进行调制处理，得到每张所述掩码图像对应的重建图像的预测编码信息。基于每张所述图像样本对应的第一预测结果和每张所述掩码图像对应的重建图像的预测编码信息，对所述学生模型进行训练，得到训练后的学生模型。

6、本说明书实施例还提供了一种存储介质，所述存储介质用于存储计算机可执行指令，所述可执行指令在被处理器执行时实现以下流程：从用于训练学生模型的多批图像样本中获取第一批图像样本，第一批图像样本中包括多张不同的图像样本，以及所述图像样本被掩码处理后的掩码图像。将多张所述图像样本输入到所述学生模型对应的教师模型中，分别得到每张所述图像样本对应的第一预测结果，并将多张所述掩码图像输入到所述学生模型中，分别得到每张所述掩码图像对应的第二预测结果。基于多张所述图像样本对应的第一预测结果，确定多张所述图像样本之间的关联关系信息，并基于多张所述图像样本之间的关联关系信息对每张所述掩码图像对应的第二预测结果进行调制处理，得到每张所述掩码图像对应的重建图像的预测编码信息。基于每张所述图像样本对应的第一预测结果和每张所述掩码图像对应的重建图像的预测编码信息，对所述学生模型进行训练，得到训练后的学生模型。

7、本说明书实施例还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下流程：从用于训练学生模型的多批图像样本中获取第一批图像样本，第一批图像样本中包括多张不同的图像样本，以及所述图像样本被掩码处理后的掩码图像。将多张所述图像样本输入到所述学生模型对应的教师模型中，分别得到每张所述图像样本对应的第一预测结果，并将多张所述掩码图像输入到所述学生模型中，分别得到每张所述掩码图像对应的第二预测结果。基于多张所述图像样本对应的第一预测结果，确定多张所述图像样本之间的关联关系信息，并基于多张所述图像样本之间的关联关系信息对每张所述掩码图像对应的第二预测结果进行调制处理，得到每张所述掩码图像对应的重建图像的预测编码信息。基于每张所述图像样本对应的第一预测结果和每张所述掩码图像对应的重建图像的预测编码信息，对所述学生模型进行训练，得到训练后的学生模型。

技术特征：

1.一种模型的处理方法，所述方法包括：

2.根据权利要求1所述的方法，所述多张所述掩码图像包括基于第一预设比例选取的掩码图像和剩余的掩码图像，所述第一预设比例选取的掩码图像是对相应的图像样本进行完全遮挡的掩码处理后得到的掩码图像，所述剩余的掩码图像是对相应的图像样本以预设遮挡比例进行遮挡的掩码处理后得到的掩码图像。

3.根据权利要求2所述的方法，所述学生模型中包括基于vision transformer构建的模块，所述方法还包括：

4.根据权利要求1所述的方法，所述基于多张所述图像样本对应的第一预测结果，确定多张所述图像样本之间的关联关系信息，包括：

5.根据权利要求4所述的方法，所述目标模型中包括线性层、relu非线性激活层和归一化层。

6.根据权利要求1所述的方法，所述基于多张所述图像样本之间的关联关系信息对每张所述掩码图像对应的第二预测结果进行调制处理，得到每张所述掩码图像对应的重建图像的预测编码信息，包括：

7.根据权利要求1或6所述的方法，所述基于每张所述图像样本对应的第一预测结果和每张所述掩码图像对应的重建图像的预测编码信息，对所述学生模型进行训练，得到训练后的学生模型，包括：

8.根据权利要求7所述的方法，所述损失函数包括smooth l1损失函数，所述解码器中包含的网络层的数量和宽度均小于所述解码器对应的编码器中包含的网络层的数量和宽度，所述编码器用于生成每张所述掩码图像对应的重建图像的预测编码信息。

9.一种模型的处理装置，所述装置包括：

10.一种模型的处理设备，所述模型的处理设备包括：

技术总结
本说明书实施例公开了一种模型的处理方法、装置及设备，该方法包括：从用于训练学生模型的多批图像样本中获取第一批图像样本，第一批图像样本中包括多张不同的图像样本，以及图像样本被掩码处理后的掩码图像；将多张图像样本输入到学生模型对应的教师模型中，分别得到每张图像样本对应的第一预测结果，并将多张掩码图像输入到学生模型中，分别得到每张掩码图像对应的第二预测结果；基于第一预测结果，确定多张图像样本之间的关联关系信息，并基于多张图像样本之间的关联关系信息对第二预测结果进行调制处理，得到每张掩码图像对应的重建图像的预测编码信息；基于第一预测结果和预测编码信息，对学生模型进行训练。

技术研发人员：黄子政,陈昊星,兰钧,祝慧佳,王维强
受保护的技术使用者：支付宝（杭州）信息技术有限公司
技术研发日：
技术公布日：2024/11/26

转载请注明原文地址:https://tc.8miu.com/read-31015.html

专利

最新回复(0)