一种针对人工智能合成图像的对抗鲁棒鉴伪方法

    专利查询2025-11-27  15


    本发明涉及图像检测,尤其是一种针对人工智能合成图像的对抗鲁棒鉴伪方法。


    背景技术:

    1、随着人工智能合成图像(aigi)的技术快速发展,包括gan、vaes和扩散模型,带来了实质性的风险。最初,早期的vaes和gans模型主要用于生成逼真的虚假面部数据,导致检测方法主要集中在面部伪造上。然而,随着扩散模型的出现,生成模型的范围已扩展到涵盖各种自然场景对象。因此,这种扩展对检测方法提出了更重大的挑战,需要应对更广泛的伪造类型和场景。

    2、aigi检测方法的主要目标是通过将其构建为二元分类任务来区分图像的真实性,区分真实和伪造实例。但是,当面对以前未见的合成图像时,它们的性能显著下降。

    3、最近,一些方法关注于在频域分析伪造痕迹并学习相关的伪造特征,以增强检测系统的泛化能力。为了实现这些目标,一些方法已经提出在空间域中学习局部伪造特征。通过学习噪声模式获取aigi(ai合成图像)指纹表示。值得注意的是,像这样的研究已经证明了在频域中利用噪声作为指纹来增强性能的效用。一系列依赖于冻结预训练模型的检测方法已经逐步进行了研究。此外,其他研究人员从不同角度对广义伪造特征进行了全面的研究,这些角度包括扩散重建误差、基于对抗性学习的模型差异感知框架以及扩散噪声。

    4、但是现有检测方法均没有考虑面对对抗攻击时的鲁棒性,存在以下缺陷:

    5、缺陷一:分类器面对对抗攻击时脆弱,现有防御方法无法权衡干净样本的分类准确率与鲁棒性,适用性较差。

    6、深度学习已经在图像分类这一计算机视觉任务中得到了广泛使用,但深度学习分类器潜在的安全风险也逐渐显现出,已有研究证明当前的深度学习分类器在面对对抗攻击时显示出脆弱,即通过对原始的输入图像添加难以察觉的噪声,或通过某些非噪声变换来生成精心设计的对抗样本,使得深度学习分类器分类错误。

    7、针对各种对抗攻击方法,各种提高分类器鲁棒性的防御技术引起了广泛关注,使其成为近年来的一个新领域。其中大多数研究可以根据侧重点不同,被归类为数据增强和模型增强。常用的数据增强方法主要致力于寻找潜在的对抗样本,例如对抗训练和随机平滑,或通过去噪来消除对抗性扰动。数据增强和模型增强在原理上是有着很大差别的,前者侧重于对分类器的潜在对抗样本的探索,后者侧重于准确数据分布的学习,二者都可以被视为在模型训练时添加新的对抗样本来增强鲁棒性。然而,第一种方法由于学习到对抗样本的分布,往往会降低干净样本的分类准确率,故其在良性准确率和鲁棒性之间存在权衡的挑战;第二种方法由于侧重于净样本分布,而无法考虑对抗样本分布,在鲁棒性上表现较差。相比数据增强,模型增强方法专注于特定体系结构和训练过程的优化,例如正则化操作,使用特殊激活层等,尽管他们在某些情况有效,但整体性能相比数据增强方法较差,且适用性也较差。

    8、缺陷二:白盒防御需要了解模型训练细节且计算开销大。

    9、给定一个预先训练的脆弱分类器,大多数现有的防御方法需要完全了解预训练模型参数细节并重新训练模型,被视为白盒防御方法。然而,在部分场景中,白盒防御会遇到很多难以解决的问题和麻烦,如模型所有者出于安全考虑拒绝分享模型信息、重新训练模型的算力需求较高等。更重要的是,与学习良性数据分布的预训练模型不同,鲁棒的重新训练可能出于各种原因难以保证其良性准确率,而在图像分类领域,大多数场景需要维持高准确率,局限性较大。因此,黑盒防御的开发在该领域至关重要,黑盒防御指的是无需了解预训练模型参数的对抗训练方法,不改变预训练模型。


    技术实现思路

    1、为了克服上述现有技术中的缺陷,本发明提供一种针对人工智能合成图像的对抗鲁棒鉴伪方法,提升aigi检测的准确率,提升面对对抗攻击时的鲁棒性。

    2、为实现上述目的,本发明采用以下技术方案,包括:

    3、一种针对人工智能合成图像的对抗鲁棒鉴伪方法,在已有检测模型即预训练模型后面连接一个附加模型,构成组合模型,利用组合模型对人工智能合成图像进行检测;组合模型的训练过程中,仅对附加模型的参数θ’进行更新,具体如下所示:

    4、s1,随机初始化附加模型的参数θ’;获取干净样本x,并生成对抗样本xf;

    5、s2,对pθ’(xf |x)进行优化设计,计算pθ’(xf |x)的梯度;其中,pθ’(xf |x)表示给定干净样本x,对抗样本xf的概率;

    6、s3,对pθ’(y|xf ,x)进行优化设计,计算pθ’(y|xf ,x)的梯度;其中,y为干净样本x对应的真实标签,pθ’(y|xf ,x)表示给定对抗样本xf与干净样本x,预测标签为干净样本真实标签y的概率;

    7、s4,对pθ’(x)进行优化设计,计算pθ’(x)的梯度;其中,pθ’(x)表示干净样本x的概率;

    8、s5,根据pθ’(xf|x)的梯度h1、pθ’(y|xf ,x)的梯度h2和pθ’(x)的梯度h3,将三个梯度求和得到模型优化的最终梯度hθ’=h1+h2+h3;根据最终梯度hθ’更新附加模型的参数θ’,从而完成附加模型的训练。

    9、优选的,步骤s1中,基于能量观点生成远离干净样本x的对抗样本xf,具体方式如下所示:

    10、对干净样本x进行能量建模:

    11、;

    12、其中,eθ’(·)是附加模型f(·;θ’)的能量方程,是一个归一化系数;exp(·)为指数函数;

    13、定义能量方程如下:

    14、;

    15、;

    16、其中,f(x;θ’)[k]表示附加模型最后一层输出的第k个类别的置信度得分,k=1,2,...,k,标签类别共有k个;f(x;θ’)[y]表示附加模型最后一层输出为干净样本真实标签y的置信度得分;

    17、定义扰动δ为符合区间[-∈,∈]的均匀分布,∈为扰动的最大半径;

    18、对扰动δ进行迭代更新,更新方式为:

    19、;

    20、其中,δm为第m次迭代更新后的扰动,δm+1为第m+1次迭代更新后的扰动;m=1,2,...,m;x(eθ’(x,y))表示对eθ’(x,y)求梯度;

    21、sign(·)为符号函数,若x(eθ’(x,y))<0,则sign(x(eθ’(x,y)))=-1;若x(eθ’(x,y))=0,则sign(x(eθ’(x,y)))=0;若x(eθ’(x,y))=0>0,则sign(x(eθ’(x,y)))=1;

    22、根据m次迭代更新后的扰动δ,得到对抗样本xf = x+δ。

    23、优选的,步骤s2中,通过最小化对抗样本xf与干净样本x之间的能量差距,以优化pθ’(xf |x),pθ’(xf |x)的梯度h1计算如下所示:

    24、;

    25、其中,{xi,i=1,...,l1}表示一个批次内的干净样本,xi为一个批次内的第i个干净样本,l1为一个批次内的干净样本数量;{xfj,j=1,...,l2}表示一个批次内的对抗样本,xfj为一个批次内的第j个对抗样本,l2为一个批次内的对抗样本数量;

    26、其中,;

    27、f(xf |x;θ’)[k]表示输入为给定干净样本x后的对抗样本xf,附加模型最后一层输出的第k个类别的置信度得分。

    28、优选的,步骤s3中,利用交叉熵来优化pθ’(y|xf ,x),将pθ’(y|xf ,x)拆分成pθ’(y|x)和pθ’(y|xf ),分别对pθ’(y|x)和pθ’(y|xf )计算交叉熵,并将pθ’(y|x)和pθ’(y|xf )的交叉熵相加得到pθ’(y|xf ,x)的损失函数l ,对损失函数l求偏导得到pθ’(y|xf ,x)的梯度h2,具体计算如下所示:

    29、;

    30、;

    31、其中,ce(·)表示交叉熵函数;f(xf ;θ’)表示对抗样本xf的预测标签;f(x;θ’)表示干净样本x的预测标签;pθ’(y|xf )表示给定对抗样本xf,预测标签为干净样本真实标签y的概率;pθ’(y|xf )表示给定干净样本x,预测标签为干净样本真实标签y的概率。

    32、优选的,步骤s4中,

    33、对于一个批次的样本数据,干净样本即正样本x+i的数量为l1,i=1,...,l1;从pθ’(x)中采样得到的样本即负样本x-z的数量为l3,z=1,...,l3;利用随机梯度朗之万动力学方法即sgld方法进行近似采样,将负样本{x-z,z=1,...,l3}从预训练模型的初始概率pθ’(x-z )通过sgld方法生成独立同分布样本:

    34、;

    35、其中,x-z,n+1表示负样本x-z的第n+1次迭代输出,x-z,n表示负样本x-z的第n次迭代输出 ;η表示步长,en表示高斯噪声;

    36、经n次迭代后,使负样本收敛到完全后验分布;

    37、利用sgld方法近似采样后,pθ’(x)的梯度h3计算如下所示:

    38、;

    39、其中,eθ’(x+i)表示正样本x+i的能量,eθ’(x-z )表示收敛到完全后验分布的负样本x-z能量。

    40、优选的,步骤s5中,附加模型的参数更新方法如下所示:

    41、;

    42、;

    43、其中,θ’t+1为第t+1步的参数;θ’t为第t步的参数;σ为更新步长;是附加模型第t步优化的最终梯度;f是摩擦系数,用于调整噪声项的强度;n表示高斯分布;是系数为θ’t的协方差矩阵,用于平滑梯度的变化;是的逆矩阵;是的逆矩阵平方根;τ是时间常数,用于控制协方差矩阵的更新速度;

    44、附加模型的参数θ’经t次迭代后,完成附加模型的参数更新。

    45、优选的,通过跳跃连接的方式,将附加模型f(·;θ’)与预训练模型g(·;θ)连接,得到一个组合模型,logits=f(g(x;θ);θ’)+g(x;θ);其中,θ为预训练模型的参数,logits为组合模型的输出。

    46、优选的,所述附加模型包括两层全连接层。

    47、本发明还提供了一种可读存储介质,其上存储有计算机程序,所述计算机程序被执行时实现上述的一种针对人工智能合成图像的对抗鲁棒鉴伪方法。

    48、本发明还提供了一种计算机程序产品,其包括计算机程序/指令,该计算机程序/指令被处理器执行时实现上述的一种针对人工智能合成图像的对抗鲁棒鉴伪方法。

    49、本发明的优点在于:

    50、(1)本发明提出了一种基于能量模型的后训练贝叶斯对抗训练方法,该方法是一种轻量且通用的黑盒防御方法,减少了内存和计算成本的大量开销,同时权衡干净样本的准确率与鲁棒性。相较于已有aigi检测方法,本发明方法在保证分类准确率的前提下,且具有较高鲁棒性。

    51、(2)本发明提供了一个后训练贝叶斯组件,通过在预训练模型的后面附加一个微型的附加模型,以达到鲁棒性的提升。

    52、(3)典型的判别分类器直接估计条件概率分布,本发明从能量模型角度建模,考虑对抗样本、干净样本的联合分布,通过本发明方法使得模型展示出了更好的拟合能力,有效的缓解了鲁棒性与准确率之间的权衡问题。

    53、(4)现有对抗训练方法需要对模型进行重新训练,以提升鲁棒性,本发明通过在预训练模型后面附加轻便的贝叶斯组件(附加模型),并使用一个跳跃连接层与预训练模型进行连接,使得该组合模型在极小消耗的前提下,兼具高准确率与高鲁棒性。

    54、(5)本发明提升aigi检测的准确率以及提升面对对抗攻击时的鲁棒性,权衡干净样本准确率与鲁棒性,不对预训练模型进行重新训练,减少开销,在未知预训练模型具体参数的时候提升鲁棒性,是一种黑盒防御方法。

    55、(6)本发明提出了一种考虑干净样本、对抗样本、模型参数联合概率分布的拆分方式,该拆分方式基于能量方程的生成观点考虑干净样本与对抗样本的联合概率分布。

    56、(7)本发明方法对基于梯度的攻击表现出强大的鲁棒性,达到了与最先进的基线防御方法相当的性能,并在鲁棒性上取得了较大提升。


    技术特征:

    1.一种针对人工智能合成图像的对抗鲁棒鉴伪方法,其特征在于,在已有检测模型即预训练模型后面连接一个附加模型,构成组合模型,利用组合模型对人工智能合成图像进行检测 ;组合模型的训练过程中,仅对附加模型的参数θ’进行更新,具体如下所示:

    2.根据权利要求1所述的一种针对人工智能合成图像的对抗鲁棒鉴伪方法,其特征在于,步骤s1中,基于能量观点生成远离干净样本x的对抗样本xf,具体方式如下所示:

    3.根据权利要求2所述的一种针对人工智能合成图像的对抗鲁棒鉴伪方法,其特征在于,步骤s2中,通过最小化对抗样本xf与干净样本x之间的能量差距,以优化pθ’(xf |x),pθ’(xf |x)的梯度h1计算如下所示:

    4.根据权利要求2所述的一种针对人工智能合成图像的对抗鲁棒鉴伪方法,其特征在于,步骤s3中,利用交叉熵来优化pθ’(y|xf ,x),将pθ’(y|xf ,x)拆分成pθ’(y|x)和pθ’(y|xf ),分别对pθ’(y|x)和pθ’(y|xf )计算交叉熵,并将pθ’(y|x)和pθ’(y|xf )的交叉熵相加得到pθ’(y|xf ,x)的损失函数l,对损失函数l求偏导得到pθ’(y|xf ,x)的梯度h2,具体计算如下所示:

    5.根据权利要求2所述的一种针对人工智能合成图像的对抗鲁棒鉴伪方法,其特征在于,步骤s4中,对于一个批次的样本数据,干净样本即正样本x+i的数量为l1,i=1,...,l1;从pθ’(x)中采样得到的样本即负样本x-z的数量为l3,z=1,...,l3;利用随机梯度朗之万动力学方法即sgld方法进行近似采样,将负样本{x-z,z=1,...,l3}从预训练模型的初始概率pθ’(x-z )通过sgld方法生成独立同分布样本:

    6.根据权利要求1所述的一种针对人工智能合成图像的对抗鲁棒鉴伪方法,其特征在于,步骤s5中,附加模型的参数更新方法如下所示:

    7.根据权利要求1所述的一种针对人工智能合成图像的对抗鲁棒鉴伪方法,其特征在于,通过跳跃连接的方式,将附加模型f(·;θ’)与预训练模型g(·;θ)连接,得到一个组合模型,logits=f(g(x;θ);θ’)+g(x;θ);其中,θ为预训练模型的参数,logits为组合模型的输出。

    8.根据权利要求1所述的一种针对人工智能合成图像的对抗鲁棒鉴伪方法,其特征在于,所述附加模型包括两层全连接层。

    9.一种可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被执行时实现权利要求1~8任一所述一种针对人工智能合成图像的对抗鲁棒鉴伪方法。

    10.一种计算机程序产品,其特征在于,其包括计算机程序/指令,该计算机程序/指令被处理器执行时实现权利要求1~8任一所述一种针对人工智能合成图像的对抗鲁棒鉴伪方法。


    技术总结
    本发明公开了一种针对人工智能合成图像的对抗鲁棒鉴伪方法,涉及图像检测和深度学习技术领域,在预训练模型后面连接一个附加模型,构成组合模型,用于对人工智能合成图像进行检测;组合模型的训练过程中,仅对附加模型的参数θ’进行更新,基于能量观点生成远离干净样本的对抗样本x<supgt;f</supgt;;分别对p<subgt;θ’</subgt;(x<supgt;f </supgt;|x)、p<subgt;θ’</subgt;(y|x<supgt;f</supgt;,x)、p<subgt;θ’</subgt;(x)进行优化设计;将p<subgt;θ’</subgt;(x<supgt;f </supgt;|x)、p<subgt;θ’</subgt;(y|x<supgt;f</supgt;,x)、p<subgt;θ’</subgt;(x)的梯度求和得到模型优化的最终梯度h<subgt;θ’</subgt;;根据最终梯度h<subgt;θ’</subgt;更新参数θ’,完成模型训练。本发明是一种轻量且通用的黑盒防御方法,保证AIGI检测的准确率且具有较高鲁棒性。

    技术研发人员:刁云峰,姜凯超,唐申庚,郭丹,汪萌
    受保护的技术使用者:合肥工业大学
    技术研发日:
    技术公布日:2024/11/26
    转载请注明原文地址:https://tc.8miu.com/read-32251.html

    最新回复(0)