1.本公开涉及人工智能技术领域,具体为深度学习、计算机视觉等技术领域,可应用于图像处理场景,尤其涉及人工智能的模型训练方法、图像识别方法、装置及电子设备。
背景技术:
2.人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
3.知识蒸馏(knowledge distillation)是指通过预先训练好的教师模型(复杂但性能优越)训练学生模型(精简、复杂度低),以使得学生模型可以具有与教师模型相同或相似的数据处理能力的模型训练方法。
技术实现要素:
4.本公开提供了一种模型训练方法、图像识别方法、装置及电子设备。
5.根据本公开的第一方面,提供了一种模型训练方法,所述方法包括:
6.将第一样本图像输入至学生模型的编码子网络,获取所述第一样本图像对应的第一均值和第一方差,所述学生模型包括编码子网络和解码子网络;
7.基于所述第一均值和所述第一方差确定所述第一样本图像的第一样本隐特征;
8.将所述第一样本隐特征输入至所述学生模型的所述解码子网络,获得第一样本重构图像;
9.基于所述第一均值、所述第一方差、所述第一样本图像、所述第一样本隐特征和所述第一样本重构图像确定蒸馏损失值;
10.基于所述蒸馏损失值调整所述学生模型的参数。
11.根据本公开的第二方面,提供了一种图像识别方法,基于上述所述的学生模型的编码子网络实现,包括:
12.将待识别图像输入至所述编码子网络,获取所述待识别图像的第四均值和第四方差;
13.基于所述第四均值和所述第四方差,确定所述待识别图像的隐特征;
14.基于所述待识别图像的隐特征,识别所述待识别图像中的生物学特征。
15.根据本公开的第三方面,提供了一种模型训练装置,包括:
16.第一输入单元,用于将第一样本图像输入至学生模型的编码子网络,获取所述第一样本图像对应的第一均值和第一方差;
17.第一确定单元,用于基于所述第一均值和所述第一方差确定所述第一样本图像的第一样本隐特征;
18.第二输入单元,用于将所述第一样本隐特征输入至所述学生模型的解码子网络,获得第一样本重构图像;
19.第二确定单元,用于基于所述第一均值、所述第一方差、所述第一样本图像、所述第一样本隐特征和所述第一样本重构图像确定蒸馏损失值;
20.调整单元,用于基于所述蒸馏损失值调整所述学生模型的参数。
21.根据本公开的第四方面,提供了一种图像识别装置,基于上述所述的学生模型的编码子网络实现,包括:
22.第三输入单元,用于将待识别图像输入至所述编码子网络,获取所述待识别图像的第四均值和第四方差;
23.第三确定单元,用于基于所述第四均值和所述第四方差,确定所述待识别图像的隐特征;
24.识别单元,用于基于所述待识别图像的隐特征,识别所述待识别图像中的生物学特征。
25.本公开第五方面提供一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述所述的模型训练方法。
26.本公开第六方面提供一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行上述所述的模型训练方法。
27.本公开第七方面提供一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令在被处理器执行时实现上述所述的模型训练方法。
28.应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
29.附图用于更好地理解本方案,不构成对本公开的限定。其中:
30.图1示出了本公开实施例提供的模型训练方法的一种可选流程示意图;
31.图2示出了本公开实施例提供的教师模型的训练方法的一种可选流程示意图;
32.图3示出了本公开实施例提供的教师模型的训练方法的示意图;
33.图4示出了本公开实施例提供的模型训练方法的另一种可选流程示意图;
34.图5示出了本公开实施例提供的模型训练方法的示意图;
35.图6示出了本公开实施例提供的图像识别方法的可选流程示意图;
36.图7示出了本公开实施例提供的模型训练装置的可选结构示意图;
37.图8示出了本公开实施例提供的图像识别装置的可选结构示意图;
38.图9示出了可以用来实施本公开的实施例的示例电子设备的示意性框图。
具体实施方式
39.以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识
到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
40.相关技术中,大多数蒸馏方法直接对原始特征进行监督,这种监督方法缺少对特征分布的具体表达,本公开实施例提供的模型训练方法,将特征表达映射成高斯分布,通过数学化特征分布,提升蒸馏精度。本公开的学生模型(student模型)主要由编码子网络和解码子网络组成,其中,编码子网络负责生成隐特征,且隐特征分布符合n(0,1)高斯分布,解码子网络负责重建图片。教师模型(teacher模型)由事先训练好的高斯分布编码器组成。
41.图1示出了本公开实施例提供的模型训练方法的一种可选流程示意图,将根据各个步骤进行说明。
42.步骤s101,将第一样本图像输入至学生模型的编码子网络,获取所述第一样本图像对应的第一均值和第一方差。
43.在一些实施例中,所述学生模型的编码子网络包括神经卷积网络和全连接层;模型训练装置(以下简称装置)将所述第一样本图像输入至所述编码子网络包括的神经卷及网络和全连接层;基于所述神经卷积网络和所述全连接层的输出,确定所述第一样本图像对应的所述第一均值和所述第一方差。
44.其中,所述第一均值可以通过u表示,所述第一方差可以通过v表示。
45.可选的,所述第一样本图像为第一样本集中的任一张图像;所述第一样本集中包括人工合成的图像或自然采集的图像;在一些可选实施例中,所述第一样本集中的图像包括人脸(即所述第一样本集中的图像为人脸图像),进一步,所述学生模型可以用于人脸识别。
46.步骤s102,基于所述第一均值和所述第一方差确定所述第一样本图像的第一样本隐特征。
47.在一些实施例中,所述装置基于高斯分布n(0,1)生成第一随机高斯噪声;其中,所述第一随机高斯噪声可以通过t表示;将所述第一方差、所述第一均值、所述第一随机高斯噪声作为高斯分布函数的输入,确定所述高斯分布函数的输出为所述第一样本图像的所述第一样本隐特征。
48.其中,所述高斯分布函数可以通过下式表示:
49.f=g(k,u,v)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
50.其中,k为高斯采样点,通过k=u+v*t确定,表征以第一均值为中心向所述第一均值附近进行采样;u为第一均值;v为第一方差;f为所述第一样本图像的第一样本隐特征。
51.步骤s103,将所述第一样本隐特征输入至所述学生模型的解码子网络,获得第一样本重构图像。
52.在一些实施例中,所述装置将所述第一样本隐特征输入至所述解码子网络中,基于所述解码子网络的输出,确定第一样本重构图像。
53.步骤s104,基于所述第一均值、所述第一方差、所述第一样本图像、所述第一样本隐特征和所述第一样本重构图像确定蒸馏损失值。
54.在一些实施例中,所述蒸馏损失值由第一损失值、第二损失值和第三损失值确定。所述装置基于所述第一均值和所述第一方差确定所述第一损失值;基于所述第一样本图像和所述第一样本重构图像确定所述第二损失值;基于标注隐特征与所述第一样本隐特征确
定所述第三损失值;基于所述第一损失值、所述第二损失值和所述第三损失值之和,确定所述蒸馏损失值;所述标注隐特征由教师模型基于所述第一样本图像确定。
55.具体实施时,所述装置将所述第一方差的平方的对数值减去所述第一均值的平方与所述第一方差的平方之和,得到的结果加1,确定为所述第一损失值。
56.具体的,所述装置可以通过下式确定所述第一损失值:
57.loss1=1+log(v2)-u
2-v2ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
58.其中,loss1为所述第一损失值。
59.具体实施时,所述装置确定所述第一样本图像与所述第一样本重构图像的平方差为所述第二损失值。
60.具体的,所述装置可以通过下式确定所述第二损失值:
61.loss2=(x-y)2ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
62.其中,loss2为所述第二损失值,所述第一样本图像为x,所述第一样本重构图像为y。
63.具体实施时,所述装置将所述第一样本图像输入至所述教师模型,基于所述教师模型的输出,确定所述标注隐特征;确定所述第一样本隐特征和所述标注隐特征的平方差为所述第三损失值。
64.具体的,所述装置可以通过下式确定所述第三损失值:
65.loss3=(f-f_t)2ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
66.其中,loss3为所述第三损失值,f为所述第一样本隐特征,f_t为所述标注隐特征。
67.在一些实施例中,所述装置可以将所述第一样本图像输入至教师模型的编码子网络,获得所述第一样本图像的第二均值和第二方差;基于所述第二均值和所述第二方差、针对所述教师模型确定的随机高斯噪声以及上述高斯分布函数,确定所述第一样本图像的标注隐特征。
68.在一些实施例中,所述蒸馏损失值loss可以通过下式确定:
69.loss=loss1+loss2+loss3
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
70.步骤s105,基于所述蒸馏损失值调整所述学生模型的参数。
71.在一些实施例中,所述装置基于所述蒸馏损失值调整所述学生模型的参数,直至所述蒸馏损失值小于或等于预设第一阈值,或者不再变化,确定所述学生模型训练完成。
72.如此,通过本公开实施例提供的模型训练方法,将第一样本图像输入至学生模型的编码子网络,获取所述第一样本图像对应的第一均值和第一方差;基于所述第一均值和所述第一方差确定所述第一样本图像的第一样本隐特征;将所述第一样本隐特征输入至所述学生模型的解码子网络,获得第一样本重构图像;基于所述第一均值、所述第一方差、所述第一样本图像、所述第一样本隐特征和所述第一样本重构图像确定蒸馏损失值;基于所述蒸馏损失值调整所述学生模型的参数;将图像的特征表达映射为高斯分布,通过数学化特征分布,提升蒸馏精度。
73.图2示出了本公开实施例提供的教师模型的训练方法的一种可选流程示意图;图3示出了本公开实施例提供的教师模型的训练方法的示意图,将结合图2和图3进行说明。
74.步骤s201,将第二样本图像输入至教师模型的编码子网络,获取所述第二样本图像的第三均值和第三方差。
75.在一些实施例中,训练教师模型的装置可以与上述步骤s101至步骤s105的执行主体相同,即均为模型训练装置;也可以与上述步骤s101至步骤s105的执行主体不同,本公开实施例中,假设训练教师模型的装置为所述模型训练装置。
76.在一些实施例中,所述装置将第二样本图像输入至所述教师模型的编码子网络,基于所述编码子网络的输出,获取所述第二样本图像的所述第三均值和所述第三方差。
77.可选的,所述第二样本图像为第二样本集中的任一张图像;所述第二样本集中包括人工合成的图像或自然采集的图像,且所述第二样本集中的图像的数量大于所述第一样本集中图像的数量;在一些可选实施例中,所述第二样本集中的图像包括人脸(即所述第二样本集中的图像为人脸图像),进一步,所述教师模型,以及通过知识蒸馏基于所述教师模型训练的学生模型可以用于人脸识别。
78.步骤s202,基于所述第三均值和所述第三方差,确定所述第二样本图像的第二样本隐特征。
79.在一些实施例中,所述装置基于高斯分布n(0,1)生成第三随机高斯噪声;其中,所述第三随机高斯噪声可以通过t_t表示;将所述第三方差、所述第三均值、所述第三随机高斯噪声作为高斯分布函数的输入,确定所述高斯分布函数的输出为所述第二样本图像的所述第二样本隐特征f_1。
80.具体实施时,所述装置可以通过式(1)确定所述第二样本隐特征。
81.步骤s203,将所述第二样本隐特征输入至所述教师模型的编码子网络,获得第二样本重构图像。
82.在一些实施例中,所述装置将所述第二样本隐特征输入至所述教师模型的解码子网络中,基于所述教师模型的解码子网络的输出,确定第二样本重构图像。
83.步骤s204,基于所述第二均值、所述第二方差、所述第二样本图像、所述第二样本隐特征和所述第二样本重构图像确定训练损失值。
84.在一些实施例中,所述装置基于所述第二均值和所述第二方差确定第四损失值;所述装置基于所述第二样本隐特征确定第五损失值;所述装置基于所述第二样本图像和所述第二样本重构图像确定第六损失值;基于所述第四损失值、第五损失值和所述第六损失值,确定所述训练损失值。
85.具体实施时,如图3所示,所述装置可以将所述第二均值和所述第二方差带入式(2),基于式(2)的结果确定第四损失值(即分布损失值);所述装置可以将所述第二样本图像和所述第二样本重构图像带入式(3),确定第六损失值(即重构损失值);所述装置还可以基于所述第二样本隐特征确定所述第二样本图像的预测样本类型,基于所述预测样本类型和所述第二样本图像对应的标注样本类型,确定所述第五损失值(分类损失值)。
86.基于所述第四损失值、第五损失值和第六损失值之和,确定所述训练损失值;或者,对所述第四损失值、第五损失值和第六损失值进行加权求和,确定所述训练损失值。
87.步骤s205,基于所述训练损失值调整所述教师模型的参数。
88.在一些实施例中,所述装置基于所述训练损失值调整所述教师模型的参数,直至所述训练损失值小于或等于预设第二阈值,或者不再变化,确定所述教师模型训练完成。
89.如此,通过本公开实施例提供的教师模型训练方法,训练得到包括高斯分布编码子网络的教师模型,将图像的特征表达映射成高斯分布,通过数学化特征分布训练学生模
型,提升知识蒸馏的精度。
90.图4是本公开实施例提供的模型训练方法的另一种可选流程示意图;图5是本公开实施例提供的模型训练方法的示意图,将结合图4和图5进行说明。
91.步骤s401,将第一样本图像输入至学生模型的编码子网络。
92.在一些实施例中,如图5所示,模型训练装置将第一样本图像x输入至学生模型的编码子网络,基于所述编码子网络输出高斯函数中的第一均值u和第一方差v;其中,所述第一样本图像x可以是人脸图像;所述编码子网络可以包括至少一个卷积神经网络单元和全连接层。
93.步骤s402,生成第一随机高斯噪声。
94.在一些实施例中,所述装置基于高斯分布n(0,1)生成第一随机高斯噪声t;进一步,所述第一随机高斯噪声t符合高斯分布。
95.步骤s403,基于第一均值和第一方差确定第一样本隐特征。
96.在一些实施例中,所述装置基于k=u+v*t,将所述第一均值u和第一方差v输入至式(1),确定所述第一样本隐特征f。
97.步骤s404,确定第一损失值。
98.在一些实施例中,所述装置将所述第一均值u和第一方差v输入至分布损失函数(式(1))中,确定第一损失值。
99.其中,所述分布损失函数的目的是使得学生模型的编码子网络输出的与图像对应的均值和方差更接近高斯分布。
100.步骤s405,确定第二损失值。
101.在一些实施例中,所述装置将所述第一样本隐特征f输入至所述学生模型包括的解码子网络中,获得第一样本重构图像y;将所述第一样本图像x和所述第一样本重构图像y输入至重建损失函数(式(2))中,确定所述第二损失值。
102.步骤s406,确定标注隐特征。
103.如图5所示,将所述第一样本图像x输入至已经训练好的教师模型的编码子网络中,获得所述第一样本图像的第二均值u_t和第二方差v_t;基于高斯分布确定第二随机高斯噪声t_1;将所述第二方差v_t、所述第二均值u_t、所述第二随机高斯噪声t_1作为高斯分布函数(式(1))的输入,确定所述高斯分布函数的输出为所述第一样本图像的所述标注隐特征f_t。
104.具体实施时,所述装置可以通过式(1)确定所述标注隐特征f_t。
105.其中,所述已经训练好的教师模型可以基于步骤s201至步骤s205训练获得。
106.步骤s407,确定第三损失值。
107.在一些实施例中,所述装置将所述第一样本隐特征f和所述标注隐特征f_t输入至蒸馏损失函数(式(4))中,基于所述蒸馏损失函数的输出,为所述第三损失值。
108.基于所述第一损失值、所述第二损失值和所述第三损失值之和调整所述学生模型的参数;或者,基于所述第一损失值、所述第二损失值和所述第三损失值的加权求和结果,调整所述学生模型的参数。
109.步骤s408,基于学生模型进行特征比对。
110.在一些实施例中,所述学生模型训练完成后,可以应用于终端设备中,将终端设备
采集或获取的图像输入至所述学生模型的编码子网络中,基于所述编码子网络输出的所述图像对应的隐特征,进行人脸特征比对。
111.如此,通过本公开实施例提供的模型训练方法,可以将图像的特征表达映射为高斯分布,通过数学化特征分布,提升蒸馏精度。
112.图6示出了本公开实施例提供的图像识别方法的可选流程示意图,将根据各个步骤进行说明。
113.在一些实施例中,图像识别装置基于上述步骤s101至步骤s105、步骤s201至步骤s205以及步骤s401至步骤s408所述的学生模型的编码子网络实现待识别图像的生物学特征识别。
114.步骤s601,将待识别图像输入至所述编码子网络,获取所述待识别图像的第四均值和第四方差。
115.在一些实施例中,所述图像识别装置将所述待识别图像输入至所述编码子网络包括的神经卷积网络和全连接层;基于所述神经卷积网络和所述全连接层的输出,确定所述待识别图像对应的所述第四均值和所述第四方差。
116.步骤s602,基于所述第四均值和所述第四方差,确定所述待识别图像的隐特征。
117.在一些实施例中,所述图像识别装置基于高斯分布生成第四随机高斯噪声;将所述第四方差、所述第四均值、所述第四随机高斯噪声作为高斯分布函数的输入,确定所述高斯分布函数的输出为所述待识别图像的隐特征。
118.具体实施时,所述图像识别装置可以基于k=u+v*t确定所述第四方差、所述第四均值和所述第四随机高斯噪声对应的高斯采样点k_2,将所述第四方差、第四均值和所述高斯采样点k_2输入至高斯分布函数(式(1))中,得到所述待识别图像的隐特征。
119.步骤s603,基于所述待识别图像的隐特征,识别所述待识别图像中的生物学特征。
120.在一些实施例中,所述待识别图像中的生物学特征可以是人的面部特征,或所述面部特征中的五官特征,如眼部特征、鼻部特征、嘴部特征等;还可以是发型特征、人体特征,本公开实施例不做具体限定,以下以所述生物学特征为面部特征为例进行说明。
121.在一些实施例中,所述图像识别装置基于所述待识别图像的隐特征进行人脸特征比对,识别所述待识别图像中的面部特征,实现待识别图像的人脸识别。
122.在一些可选实施例中,所述图像识别装置可以通过现有的基于图像的隐特征进行人脸特征比对的方案实现识别所述待识别图像中的生物学特征,本公开中不做赘述。
123.如此,通过本公开实施例提供的图像识别方法,将待识别图像输入至所述编码子网络,获取所述待识别图像的第四均值和第四方差;基于所述第四均值和所述第四方差,确定所述待识别图像的隐特征;基于所述待识别图像的隐特征,识别所述待识别图像中的生物学特征。将图像的特征表达映射为高斯分布,进而基于高斯分布获得的隐特征进行生物学特征识别,可以提升图像识别的准确率。
124.图7示出了本公开实施例提供的模型训练装置的可选结构示意图,将根据各个部分进行说明。
125.在一些实施例中,模型训练装置700包括第一输入单元701、第一确定单元702、第二输入单元703、第二确定单元704和调整单元705。
126.所述第一输入单元701,用于将第一样本图像输入至学生模型的编码子网络,获取
所述第一样本图像对应的第一均值和第一方差;
127.所述第一确定单元702,用于基于所述第一均值和所述第一方差确定所述第一样本图像的第一样本隐特征;
128.所述第二输入单元703,用于将所述第一样本隐特征输入至所述学生模型的解码子网络,获得第一样本重构图像;
129.所述第二确定单元704,用于基于所述第一均值、所述第一方差、所述第一样本图像、所述第一样本隐特征和所述第一样本重构图像确定蒸馏损失值;
130.所述调整单元705,用于基于所述蒸馏损失值调整所述学生模型的参数。
131.所述第一输入单元701,具体用于将所述第一样本图像输入至所述编码子网络包括的神经卷积网络和全连接层;基于所述神经卷积网络和所述全连接层的输出,确定所述第一样本图像对应的所述第一均值和所述第一方差。
132.所述第一确定单元702,具体用于基于高斯分布生成第一随机高斯噪声;将所述第一方差、所述第一均值、所述第一随机高斯噪声作为高斯分布函数的输入,确定所述高斯分布函数的输出为所述第一样本图像的所述第一样本隐特征。
133.所述第二确定单元704,具体用于基于所述第一均值和所述第一方差确定第一损失值;
134.基于所述第一样本图像和所述第一样本重构图像确定第二损失值;
135.基于标注隐特征与所述第一样本隐特征确定第三损失值;
136.基于所述第一损失值、所述第二损失值和所述第三损失值之和,确定所述蒸馏损失值;
137.所述标注隐特征由教师模型基于所述第一样本图像确定。
138.所述第二确定单元704,具体用于将所述第一方差的平方的对数值减去所述第一均值的平方与所述第一方差的平方之和,得到的结果加1,确定为所述第一损失值。
139.所述第二确定单元704,具体用于确定所述第一样本图像与所述第一样本重构图像的平方差为所述第二损失值。
140.所述第二确定单元704,具体用于将所述第一样本图像输入至所述教师模型,基于所述教师模型的输出,确定所述标注隐特征;确定所述第一样本隐特征和所述标注隐特征的平方差为所述第三损失值。
141.所述第二确定单元704,具体用于将所述第一样本图像输入至教师模型的编码子网络,获得所述第一样本图像的第二均值和第二方差;基于所述第二均值和所述第二方差,确定所述第一样本图像的标注隐特征。
142.在一些实施例中,所述模型训练装置700还可以包括:训练单元706。
143.所述训练单元706,具体用于将第二样本图像输入至教师模型的编码子网络,获取所述第二样本图像的第三均值和第三方差;基于所述第三均值和所述第三方差,确定所述第二样本图像的第二样本隐特征;将所述第二样本隐特征输入至所述教师模型的编码子网络,获得第二样本重构图像;基于所述第二均值、所述第二方差、所述第二样本图像、所述第二样本隐特征和所述第二样本重构图像确定训练损失值;基于所述训练损失值调整所述教师模型的参数。
144.图8示出了本公开实施例提供的图像识别装置的可选结构示意图,将根据各个步
骤进行说明。
145.在一些实施例中,所述图像识别装置800包括第三输入单元801、第三确定单元802和识别单元803。
146.所述第三输入单元801,具体用于将所述待识别图像输入至所述编码子网络包括的神经卷积网络和全连接层;基于所述神经卷积网络和所述全连接层的输出,确定所述待识别图像对应的所述第四均值和所述第四方差。
147.所述第三确定单元802,具体用于基于高斯分布生成第四随机高斯噪声;将所述第四方差、所述第四均值、所述第四随机高斯噪声作为高斯分布函数的输入,确定所述高斯分布函数的输出为所述待识别图像的隐特征。
148.本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
149.根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
150.图9示出了可以用来实施本公开的实施例的示例电子设备的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
151.如图9所示,设备900包括计算单元901,其可以根据存储在只读存储器(rom)902中的计算机程序或者从存储单元908加载到随机访问存储器(ram)903中的计算机程序,来执行各种适当的动作和处理。在ram 903中,还可存储设备900操作所需的各种程序和数据。计算单元901、rom 902以及ram 903通过总线904彼此相连。输入/输出(i/o)接口905也连接至总线904。
152.设备900中的多个部件连接至i/o接口905,包括:输入单元906,例如键盘、鼠标等;输出单元907,例如各种类型的显示器、扬声器等;存储单元908,例如磁盘、光盘等;以及通信单元909,例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
153.计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理,例如模型训练方法或图像识别方法。例如,在一些实施例中,模型训练方法或图像识别方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元908。在一些实施例中,计算机程序的部分或者全部可以经由rom 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到ram 903并由计算单元901执行时,可以执行上文描述的模型训练方法或图像识别方法的一个或多个步骤。备选地,在其他实施例中,计算单元901可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行模型训练方法或图像识别方法。
154.本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
155.用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
156.在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
157.为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
158.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。
159.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
160.应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例
如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
161.上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
技术特征:
1.一种模型训练方法,所述方法包括:将第一样本图像输入至学生模型的编码子网络,获取所述第一样本图像对应的第一均值和第一方差,所述学生模型包括编码子网络和解码子网络;基于所述第一均值和所述第一方差确定所述第一样本图像的第一样本隐特征;将所述第一样本隐特征输入至所述学生模型的所述解码子网络,获得第一样本重构图像;基于所述第一均值、所述第一方差、所述第一样本图像、所述第一样本隐特征和所述第一样本重构图像确定蒸馏损失值;基于所述蒸馏损失值调整所述学生模型的参数。2.根据权利要求1所述的方法,其中,所述将第一样本图像输入至学生模型的编码子网络,获取所述第一样本图像对应的第一均值和第一方差包括:将所述第一样本图像输入至所述编码子网络包括的神经卷积网络和全连接层;基于所述神经卷积网络和所述全连接层的输出,确定所述第一样本图像对应的所述第一均值和所述第一方差。3.根据权利要求1所述的方法,其中,所述基于所述第一均值和所述第一方差确定所述第一样本图像的第一样本隐特征,包括:基于高斯分布生成第一随机高斯噪声;将所述第一方差、所述第一均值、所述第一随机高斯噪声作为高斯分布函数的输入,确定所述高斯分布函数的输出为所述第一样本图像的所述第一样本隐特征。4.根据权利要求1所述的方法,其中,所述基于所述第一均值、所述第一方差、所述第一样本图像和所述第一样本重构图像确定蒸馏损失值,包括:基于所述第一均值和所述第一方差确定第一损失值;基于所述第一样本图像和所述第一样本重构图像确定第二损失值;基于标注隐特征与所述第一样本隐特征确定第三损失值;基于所述第一损失值、所述第二损失值和所述第三损失值之和,确定所述蒸馏损失值;所述标注隐特征由教师模型基于所述第一样本图像确定。5.根据权利要求4所述的方法,其中,所述基于所述第一均值和所述第一方差确定第一损失值,包括:将所述第一方差的平方的对数值减去所述第一均值的平方与所述第一方差的平方之和,得到的结果加1,确定为所述第一损失值。6.根据权利要求4所述的方法,其中,所述基于所述第一样本图像和所述第一样本重构图像确定第二损失值,包括:确定所述第一样本图像与所述第一样本重构图像的平方差为所述第二损失值。7.根据权利要求6所述的方法,其中,所述基于标注隐特征与所述第一样本隐特征确定第三损失值包括:将所述第一样本图像输入至所述教师模型,基于所述教师模型的输出,确定所述标注隐特征;确定所述第一样本隐特征和所述标注隐特征的平方差为所述第三损失值。8.根据权利要求7所述的方法,其中,所述将所述样本图像输入至教师模型,基于所述
教师模型的输出,确定所述标注隐特征,包括:将所述第一样本图像输入至教师模型的编码子网络,获得所述第一样本图像的第二均值和第二方差;基于所述第二均值和所述第二方差,确定所述第一样本图像的标注隐特征。9.根据权利要求1所述的方法,其中,所述将第一样本图像输入至学生模型的编码子网络,获取所述第一样本图像对应的第一均值和第一方差之前,所述方法还包括:将第二样本图像输入至教师模型的编码子网络,获取所述第二样本图像的第三均值和第三方差;基于所述第三均值和所述第三方差,确定所述第二样本图像的第二样本隐特征;将所述第二样本隐特征输入至所述教师模型的编码子网络,获得第二样本重构图像;基于所述第二均值、所述第二方差、所述第二样本图像、所述第二样本隐特征和所述第二样本重构图像确定训练损失值;基于所述训练损失值调整所述教师模型的参数。10.一种图像识别方法,基于前述权利要求1至权利要求9所述的学生模型的编码子网络实现,包括:将待识别图像输入至所述编码子网络,获取所述待识别图像的第四均值和第四方差;基于所述第四均值和所述第四方差,确定所述待识别图像的隐特征;基于所述待识别图像的隐特征,识别所述待识别图像中的生物学特征。11.根据权利要求10所述的方法,其中,所述将待识别图像输入至所述编码子网络,获取所述待识别图像的第四均值和第四方差,包括:将所述待识别图像输入至所述编码子网络包括的神经卷积网络和全连接层;基于所述神经卷积网络和所述全连接层的输出,确定所述待识别图像对应的所述第四均值和所述第四方差。12.根据权利要求10所述的方法,其中,基于所述第四均值和所述第四方差,确定所述待识别图像的隐特征,包括:基于高斯分布生成第四随机高斯噪声;将所述第四方差、所述第四均值、所述第四随机高斯噪声作为高斯分布函数的输入,确定所述高斯分布函数的输出为所述待识别图像的隐特征。13.一种模型训练装置,包括:第一输入单元,用于将第一样本图像输入至学生模型的编码子网络,获取所述第一样本图像对应的第一均值和第一方差;所述学生模型包括编码子网络和解码子网络;第一确定单元,用于基于所述第一均值和所述第一方差确定所述第一样本图像的第一样本隐特征;第二输入单元,用于将所述第一样本隐特征输入至所述学生模型的所述解码子网络,获得第一样本重构图像;第二确定单元,用于基于所述第一均值、所述第一方差、所述第一样本图像、所述第一样本隐特征和所述第一样本重构图像确定蒸馏损失值;调整单元,用于基于所述蒸馏损失值调整所述学生模型的参数。14.根据权利要求13所述的装置,其中,
所述第一输入单元,具体用于将所述第一样本图像输入至所述编码子网络包括的神经卷积网络和全连接层;基于所述神经卷积网络和所述全连接层的输出,确定所述第一样本图像对应的所述第一均值和所述第一方差。15.根据权利要求13所述的装置,其中,所述第一确定单元,具体用于基于高斯分布生成第一随机高斯噪声;将所述第一方差、所述第一均值、所述第一随机高斯噪声作为高斯分布函数的输入,确定所述高斯分布函数的输出为所述第一样本图像的所述第一样本隐特征。16.一种图像识别装置,基于前述权利要求1至权利要求9所述的学生模型的编码子网络实现,包括:第三输入单元,用于将待识别图像输入至所述编码子网络,获取所述待识别图像的第四均值和第四方差;第三确定单元,用于基于所述第四均值和所述第四方差,确定所述待识别图像的隐特征;识别单元,用于基于所述待识别图像的隐特征,识别所述待识别图像中的生物学特征。17.根据权利要求16所述的装置,其中,所述第三输入单元,具体用于将所述待识别图像输入至所述编码子网络包括的神经卷积网络和全连接层;基于所述神经卷积网络和所述全连接层的输出,确定所述待识别图像对应的所述第四均值和所述第四方差。18.一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-9中任一项所述的模型训练方法;或者,执行权利要求10-12所述的图像识别方法。19.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-9中任一项所述的模型训练方法;或者,执行权利要求10-12所述的图像识别方法。20.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-9中任一项所述的方法;或者,实现权利要求10-12所述的图像识别方法。
技术总结
本公开提供了模型训练方法、图像识别方法、装置及电子设备,涉及人工智能技术领域,具体为深度学习、计算机视觉等技术领域,可应用于图像等场景。具体实现方案为:将第一样本图像输入至学生模型的编码子网络,获取所述第一样本图像对应的第一均值和第一方差,所述学生模型包括编码子网络和解码子网络;基于所述第一均值和所述第一方差确定所述第一样本图像的第一样本隐特征;将所述第一样本隐特征输入至所述学生模型的所述解码子网络,获得第一样本重构图像;基于所述第一均值、所述第一方差、所述第一样本图像、所述第一样本隐特征和所述第一样本重构图像确定蒸馏损失值;基于所述蒸馏损失值调整所述学生模型的参数。馏损失值调整所述学生模型的参数。馏损失值调整所述学生模型的参数。
技术研发人员:杨馥魁
受保护的技术使用者:北京百度网讯科技有限公司
技术研发日:2022.01.30
技术公布日:2022/5/25
转载请注明原文地址:https://tc.8miu.com/read-22807.html