本发明属于模型安全,特别涉及一种针对硬标签无数据设置的模型安全性评估方法及系统。
背景技术:
1、深度学习是人工智能的一个重要分支。近年来,以chat-gpt为典型的在线部署的深度学习模型得到了极大的发展和应用,广泛应用于各个行业。大模型在给人们生活带来极大的便利,同时模型在生命周期的各个阶段都可能面临着不同程度的安全风险,导致模型无法提供正常的服务或者是泄露模型的隐私信息,例如,攻击者通过目标模型输出中隐含的一定的关于模型的信息实施模型功能窃取,从而破坏模型的机密性、可用性和完整性。但现有的方法仅针对软标签设置进行模型安全性检测,在现实条件下无法有效部署。
2、大多数模型安全性评估方法中,在进行攻击测试场景中,针对目标模型的攻击测试通常生成器模型和替代模型类似于生成对抗网络(gan)的结构。具体来说,生成器模型用于生成用于访问目标模型和替代模型的查询样本,训练目标为最大化两者的预测结果的分歧。替代模型拟合目标模型的预测结果,其训练数据完全来源于向目标模型发出的查询样本及其对应的输出,因此查询样本的质量决定了替代模型的性能上限。然而,硬标签设置下缺乏目标模型的输出信息,无法生成高质量的查询样本,导致替代模型存在严重的过拟合问题。以至影响安全性攻击测试中替代模型功能拟合的成功率和性能上限,从而无法进行高效的目标模型安全性评估。
3、综上所述,在硬标签设置下通过模型功能拟合评估在线部署模型的安全性场景中,目前在基于类似gan结构的攻击测试方法中,没有高效的方法能够使硬标签设置下安全性攻击测试具有较高拟合精确度的需求。因此,如何在硬标签条件下进行有效的模型安全评估是亟需解决的重要问题。
技术实现思路
1、针对现有技术存在的不足,本发明提供一种针对硬标签无数据设置的模型安全性评估方法,解决了基于gan的攻击网络训练不稳定和模式坍塌的问题。通过去噪扩散模型优化的结合了卷积神经网络和生成对抗网络的深度卷积对抗网络(deep convolutionalgenerative adversarial networks,简称dcgan)对在线部署的黑盒模型进行攻击测试,通过引入去噪扩散模型生成代理数据,并与生成器生成的查询样本进行对抗性损失,进一步提高查询样本质量。通过这种优化使得在较少的调用目标模型api的情况下,达到较好的攻击测试效果和成功率,从而更准确地评估在线部署的黑盒模型的安全性,发现其中潜在的漏洞和脆弱性。
2、为了解决上述技术问题,本发明采用的技术方案是:
3、首先,本发明提供一种针对硬标签无数据设置的模型安全性评估方法,包括以下步骤:
4、步骤s1、将目标模型分类样本送入去噪扩散模型生成代理数据:
5、将目标模型分类样本经过特征提取后输入去噪扩散模型进行前向扩散,获得纯高斯分布,反向扩散通过对纯高斯分布进行去噪过程生成代理数据;
6、步骤s2、将噪声数据送入生成器,训练生成器生成查询样本:
7、使用生成器从随机正态分布中采样向量生成查询样本;训练时,使用对抗性损失训练生成器,使生成器生成接近代理数据的数据分布,即查询样本,通过训练生成器生成查询样本以最大化目标模型的输出和替代模型的输出 之间的差异;
8、步骤s3、通过类多样性损失训练替代模型对目标模型进行功能拟合:
9、使用多样性损失训练替代模型,训练替代模型拟合目标模型的输出,综合使用目标模型输入-输出对训练替代模型以最小化目标模型的输出和替代模型的输出之间的差异;
10、步骤s4、计算替代模型功能相似度,评估目标模型的安全性。
11、进一步的,步骤s1具体如下:将目标模型分类结果,首先通过特征提取层进行特征提取,提取后构建一个类别全面的小样本数据集,并将其作为初始数据送入去噪扩散模型进行前向扩散,于是任意时刻的数据分布由初始数据表示:
12、;
13、其中,,;表示已知初始数据条件下的后验概率分布;为扩散至第t步的数据分布;表示超参数从0至t步的累乘;为高斯噪声参数;表示第s步的超参数,i为单位矩阵,表示高斯分布;
14、前向扩散直至第t步的图像变为纯高斯分布;反向扩散通过对纯高斯分布进行去噪过程生成新数据,每一步中加入的噪声数据通过u-net进行预测,具体表示为:
15、;
16、其中,是的后验均值,是的后验方差;表示已知和条件下的后验概率分布;在标准高斯分布中,此处已知方差是一个固定值,是在前向扩散中通过计算得到的;通过u-net预测含参高斯噪声来估计预测结果的欧氏范数,用于估计高斯分布中的,表示为:
17、;
18、其中:为高斯噪声参数,为高斯噪声参数的累乘;通过训练预测的近似值,前向扩散提供标签,后向扩散使用标签进行拟合,通过确定方差和均值可以得到;根据逆马尔可夫链进行反向扩散过程,由此将初始数据通过去噪扩散模型生成代理数据。
19、进一步的,步骤s2中,对抗损失表示为:
20、;
21、;
22、其中,和分别表示真实数据对抗性损失和代理数据对抗性损失,表示真实训练数据分布,表示标准高斯分布,e表示两种分布下的期望值,表示鉴别器通过输入代理数据的输出结果,表示生成器通过输入随机向量生成的数据集,表示鉴别器通过输入生成器生成的数据集而产生的输出结果;
23、生成器通过去噪扩散模型生成的代理数据拟合目标模型的真实训练数据集,在这个过程中,鉴别器d最大化两部分对抗性损失的差值同时生成器g最小化两部分对抗性损失的差值,以此进行对抗性博弈,表示为:
24、。
25、进一步的,步骤s3中,使用类多样性损失强制执行多样性约束,具体的,类多样性损失函数使生成器生成更加贴合目标模型训练数据集所有类中多样化的图像;在一批n个样本中,考虑对每一个j类的期望置信度值为,得到所有k个类别的损失表示为:
26、;
27、;
28、其中,表示为k个类别的损失,n为样本总数,i表示n中的第i个样本,表示第i个样本的原始输出向量值,表示第i个样本在第j类的预测概率;
29、通过对抗性损失和类多样性损失优化后,生成器和鉴别器的总损失分别为:
30、;
31、;
32、其中,为生成器的参数,为生成器的总损失,为鉴别器的总损失。
33、进一步的,步骤s4具体是,设定目标模型安全性阈值,通过计算替代模型的功能拟合精确度,获取替代模型和目标模型之间的相似性,表示为:
34、;
35、其中:表示替代模型与目标模型预测结果相同的样本数量,表示替代模型与目标模型预测结果不同的样本数量;最终通过比较模型之间的相似性与安全性阈值的关系计算攻击测试成功率,进而评估目标模型的安全性。
36、本发明还提供一种针对硬标签无数据设置的模型安全性评估系统,用于实现如前所述的一种针对硬标签无数据设置的模型安全性评估方法,所述系统包括去噪扩散模型、生成器、鉴别器、损失计算模块、模型安全性评估模块;
37、所述去噪扩散模型,用于将目标模型分类样本进行前向扩散,获得纯高斯分布,反向扩散通过对纯高斯分布进行去噪过程生成代理数据;
38、所述生成器和鉴别器进行对抗性训练;
39、所述损失计算模块用于计算对抗性损失和多样性损失;
40、所述模型安全性评估模块,用于计算替代模型功能相似度,评估目标模型的安全性。
41、与现有技术相比,本发明优点在于:
42、(1)本发明适用于大多数执行图像分类任务的模型安全性测试,在相对于传统软标签设置下的模型安全性检测中,硬标签的设置更加贴合真实情况下大模型的部署所面临的全周期安全性威胁,能够更加真实的还原真实攻击情景,进一步增加模型安全性检测的现实可用性。同时具有适应性强,效率高等特点,可以客观地评估目标模型的安全性。
43、(2)本发明是一种在不访问目标模型的训练数据集的前提下,通过使用替代模型功能拟合来进行目标模型安全性测试的方法。通过使用去噪扩散模型生成能更准确还原出目标模型的敏感数据,并通过鉴别器进行代理数据和查询样本的对抗性损失,使生成器模型生成贴合目标模型真实训练数据的高质量查询样本。解决硬标签设置下模型安全性检测中缺乏攻击数据导致的过拟合问题,另外在降低访问目标模型的次数的同时提升安全性攻击测试的成功率,进一步提高模型安全性评估的准确性。
44、(3)本发明使用类多样性损失使生成器模型生成类别分布均匀的查询数据样本,进一步使访问目标模型的查询样本更加贴合其真实训练数据的类别分布,克服硬标签无数据设置下查询样本质量低、样本稀疏以及类别分布不均衡的问题。进而提高替代模型的功能拟合成功率,有效地推动了模型安全性检测在实际中的部署和应用。
1.一种针对硬标签无数据设置的模型安全性评估方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种针对硬标签无数据设置的模型安全性评估方法,其特征在于,步骤s1具体如下:将目标模型分类结果,首先通过特征提取层进行特征提取,提取后构建一个类别全面的小样本数据集,并将其作为初始数据送入去噪扩散模型进行前向扩散,于是任意时刻的数据分布由初始数据表示:
3.根据权利要求1所述的一种针对硬标签无数据设置的模型安全性评估方法,其特征在于,步骤s2中,对抗损失表示为:
4.根据权利要求1所述的一种针对硬标签无数据设置的模型安全性评估方法,其特征在于,步骤s3中,使用类多样性损失强制执行多样性约束,具体的,类多样性损失函数使生成器生成更加贴合目标模型训练数据集所有类中多样化的图像;在一批n个样本中,考虑对每一个j类的期望置信度值为,得到所有k个类别的损失表示为:
5.根据权利要求1所述的一种针对硬标签无数据设置的模型安全性评估方法,其特征在于,步骤s4具体是,设定目标模型安全性阈值,通过计算替代模型的功能拟合精确度,获取替代模型和目标模型之间的相似性,表示为:
6.一种针对硬标签无数据设置的模型安全性评估系统,其特征在于,用于实现如权利要求1-5任一项所述的一种针对硬标签无数据设置的模型安全性评估方法,所述系统包括去噪扩散模型、生成器、鉴别器、损失计算模块、模型安全性评估模块;