1.本说明书实施例涉及计算机技术领域,特别涉及一种图片识别方法。
背景技术:
2.随着计算机技术的不断发展,越来越多的应用场景(比如:涉及金融、保险或者公益等应用场景)需要对用户上传的图片的真实性进行验证,但随着数据拍照技术的提升,许多不法分子通过翻拍图像来验证获取不法收益的手段层出不穷,使得图片验证的过程变得越来越难于核查,导致图片验证的效率较低。
技术实现要素:
3.有鉴于此,本说明书施例提供了一种图片识别方法。本说明书一个或者多个实施例同时涉及一种图片识别装置,一种计算设备,一种计算机可读存储介质,一种计算机程序,以解决现有技术中存在的技术缺陷。
4.根据本说明书实施例的第一方面,提供了一种图片识别方法,包括:
5.将待识别图片输入预先训练的图片识别模型,其中,所述图片识别模型基于有标签图片样本以及满足预设规则的无标签图片样本训练获得;
6.获取所述图片识别模型对所述待识别图片的识别结果,基于所述识别结果确定所述待识别图片是否为风险图片。
7.根据本说明书实施例的第二方面,提供了一种图片识别装置,包括:
8.输入模块,被配置为将待识别图片输入预先训练的图片识别模型,其中,所述图片识别模型基于有标签图片样本以及满足预设规则的无标签图片样本训练获得;
9.确定模块,被配置为获取所述图片识别模型对所述待识别图片的识别结果,基于所述识别结果确定所述待识别图片是否为风险图片。
10.根据本说明书实施例的第三方面,提供了一种计算设备,包括:
11.存储器和处理器;
12.所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现所述图片识别方法的步骤。
13.根据本说明书实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现所述图片识别方法的步骤。
14.根据本说明书实施例的第五方面,提供了一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行所述图片识别方法的步骤。
15.本说明书提供的图片识别方法,包括:将待识别图片输入预先训练的图片识别模型,其中,所述图片识别模型基于有标签图片样本以及满足预设规则的无标签图片样本训练获得;获取所述图片识别模型对所述待识别图片的识别结果,基于所述识别结果确定所述待识别图片是否为风险图片。
16.具体地,该方法通过基于有标签图片样本以及满足预设规则的无标签图片样本训
练获得的图片识别模型,识别输入的待识别图片是否为风险图片,从而提高了风险图片的识别效率,降低了图片验证过程的难度。
附图说明
17.图1是本说明书一个实施例提供的一种图片识别方法的流程图;
18.图2是本说明书一个实施例提供的一种图片识别方法中模型训练的过程示意图;
19.图3是本说明书一个实施例提供的一种图片识别装置的结构示意图;
20.图4是本说明书一个实施例提供的一种计算设备的结构框图。
具体实施方式
21.在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。
22.在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
23.应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。
24.首先,对本说明书一个或多个实施例涉及的名词术语进行解释。
25.半监督学习:使用大量的未标记数据,以及同时使用标记数据,来进行模式识别工作。
26.难例:模型训练过程中损失最高的样本。
27.数据增广:是指用于增加训练数据集的方法,通过数据增广能够让数据集尽可能的多样化,使得训练的模型具有更强的泛化能力。
28.随着计算机技术的不断发展,越来越多的应用场景(比如:涉及金融、保险或者公益等应用场景)需要对用户上传的图片的真实性进行验证,但随着数据拍照技术的提升,许多不法分子通过翻拍图像来验证获取不法利益的手段层出不穷,使得图片验证的过程变得越来越难于核查。
29.例如,在公益场景中,为了响应低碳减排的号召,许多机构会针对车辆尾气排放污染严重的问题推出各种低碳减排项目,比如,当用户每周的车辆行驶公里数较低的情况下,就会给予用户一定的奖励,而用户则需要上传手机拍摄的车辆仪表盘图片,用于判断该用户的车辆行驶公里数。
30.但在此过程中,一些用户会通过拍摄手机/电脑上的图片来冒充真实的仪表盘图片,也即是“翻拍”。因此,许多机构在接收到用户上传的手机拍摄的仪表盘图片时,需要判
断该仪表盘图片是否为翻拍图片,从而确定该用户是否存在作弊行为。
31.或者,在金融场景下,金融机构需要通过证件图片识别、人脸图像识别等方式对用户身份进行验证,从而避免非法分子通过伪装身份进行非法金融活动。
32.基于此,在本说明书中,提供了一种图片识别方法,本说明书同时涉及一种图片识别装置,一种计算设备,一种计算机可读存储介质以及一种计算机程序,在下面的实施例中逐一进行详细说明。
33.图1示出了根据本说明书一个实施例提供的一种图片识别方法的流程图,具体包括以下步骤。
34.步骤102:将待识别图片输入预先训练的图片识别模型,其中,所述图片识别模型基于有标签图片样本以及满足预设规则的无标签图片样本训练获得。
35.其中,该待识别图片可以理解为需要识别是否具有风险的图片;例如,用户的人脸图像、用户的证件图片、用户车辆的仪表盘图片等。
36.该图片识别模型可以理解为能够识别出该图片是否具有风险的模型;在实际应用中,该图片识别模型可以理解为任意一种能够对图片进行识别或检测的模型,本说明书对此不做具体限制。例如,该图片识别模型可以为mobilenet v2(一种轻量级卷积神经网络)、cnn(卷积神经网络)模型等。相应地,该有标签图片样本可以理解为用于对图片识别模型进行训练、且具有样本标签的样本。该无标签图片样本可以理解为用于对图片识别模型进行训练、但不具有样本标签的样本。
37.在实际应用中,本说明书提供的图片识别方法应用的场景不同,该待识别图片也不同;例如,在图片识别方法应用的金融场景的情况下,该待识别图片可以为用户的证件图片、用户的纸质文件图片等;相应的,图片识别模型可以理解为能够检测证件图片或纸质文件图片的真实性的模型,也即是检测证件图片或纸质文件图片是否为翻拍图片的模型。
38.或者,在图片识别方法应用的安保场景的情况下,该待识别图片可以为用户的证件图片、用户的人脸图像等;相应的,图片识别模型可以理解为能够检测证件图片或人脸图像的真实性的模型,也即是检测证件图片或人脸图像是否为翻拍图片的模型。
39.或者,在图片识别方法应用的低碳减排项目场景的情况下,该待识别图片可以为用户车辆的仪表盘图片等;相应的,图片识别模型可以理解为能够检测仪表盘图片的真实性的模型,也即是检测该仪表盘图片是否为翻拍图片的模型。
40.对应的,在图片识别模型不同的情况下,针对该图片识别模型进行训练的有标签图片样本和无标签图片样本也不同,例如,该有标签图片样本可以为具有样本标签的证件图片样本、具有样本标签的人脸图像样本或具有样本标签的仪表盘图片样本。该有标签图片样本可以为包含不具有样本标签的证件图片的样本、包含不具有样本标签的人脸图像的样本或包含不具有样本标签的仪表盘图片的样本。
41.具体地,本说明书提供的图片识别方法,能够将需要进行风险识别的待识别图片,输入至通过有标签图片样本以及满足预设规则的无标签图片样本训练获得的图片识别模型中。
42.在实际应用中,该预设规则可以根据实际应用场景进行设置,本说明书对此不做具体限制。例如,预设规则可以为通过半监督方法,对伪标签样本中的难例进行挖掘,并基于该难例确定更有价值的样本。从而将该更有价值的样本加入到对图片识别模型的训练
中,提高图片识别模型的性能和训练效率。
43.下面以本说明书提供的图片识别方法在检测仪表盘图片是否为翻拍图片的场景下,对将待识别图片输入预先训练的图片识别模型做进一步说明,其中,该待识别图片为用户车辆的仪表盘图片,图片识别模型可以理解为能够识别出仪表盘图片是否为翻拍图片的图片识别模型,基于此,本说明书提供的图片识别方法,能够将用户车辆的仪表盘图片,输入至能够识别出仪表盘图片是否为翻拍图片的图片识别模型中。
44.在本说明书提供的一实施例中,在将该待识别图片输入图片识别模型之前,还需要对该图片识别模型进行训练。因此,在本说明书提供了两种针对该图片识别模型的方案,第一种方案是通过人工标注有限的样本数据训练卷积神经网络,从而实现对翻拍图片的识别。但是,该方案具有两方面的缺点,第一方面是,样本数据量很大,导致人工标注成本非常高,且标注时间很长;并且还会造成模型迭代效率低下。第二方面是,在有限的人力下标注的资源少,导致模型泛化性不佳。
45.第二种方案是,通过半监督学习的方案做多次数据增广,并通过取均值将样本数据打上伪标签,并将伪标签样本加入针对模型的训练。但是,该方案同样具有两方面的缺点,第一方面是,均值中可能存在异常小的值,会导致很多有用样本无法加入训练,进一步导致半监督学习带来的性能增益降低。第二方面是,未通过半监督方法针对难例进行挖掘,并未把更有价值的样本加入训练中。
46.基于上述两种方案所存在的缺陷,本说明书提供的图片识别方法中,首先,在伪标签阶段将无标签图片经过多次数据增广后,将得分取最大值的样本作为加入训练的样本,提高了无标签样本的利用率。并且,通过在半监督学习的训练方式中,引入相似度比对的方式进行难例挖掘,将更有价值的无标签样本加入了训练,同样大幅提高了无标签样本的利用率。基于此,本说明书提供的图片识别方法中,所述图片识别模型的训练步骤,包括步骤一至步骤四。
47.步骤一:基于所述有标签图片样本训练获得初始图片识别模型。
48.其中,该初始图片识别模型可以理解为通过有标签图片样本训练获得的模型。
49.具体地,本说明书提供的图片识别方法能够基于有标签图片样本对未训练的图片识别模型进行训练,从而获得训练完成的初始图片识别模型。其中,该基于有标签图片样本训练获得初始图片识别模型的操作,可以采用任意一种基于有标签图片样本对模型进行训练的方式实现,本说明书对此不做具体限制。
50.沿用上例,该有标签图片样本可以为包含样本标签的仪表盘图片样本,基于此,本说明书提供的图片识别方法,能够确定出包含样本标签的仪表盘图片样本,将该仪表盘图片样本输入至待训练的图片识别模型中,获得该仪表盘图片样本的识别结果,基于该识别结果以及仪表盘图片样本的样本标签确定损失值,基于该损失值对该待训练的图片识别模型进行调参,使得该图片识别模型达到收敛,从而获得训练完成的初始图片识别模型。
51.步骤二:基于所述初始图片识别模型,从无标签图片样本中确定第一伪标签样本和第二伪标签样本。
52.其中,第一伪标签样本可以理解为无标签图片样本中被打上伪标签的图片样本,即伪标签图片样本;该第二伪标签样本理解为无标签图片样本中没有被打上伪标签的图片样本,也即是无标签图片样本中除伪标签图片样本之外的图片样本。
53.具体的,在基于有标签图片样本训练获得初始图片识别模型之后,能够基于该初始识别模型,从而该无标签图片样本中确定出第一伪标签样本和第二为标签样本。
54.沿用上例,将该无标签仪表盘图片样本输入至训练获得的初始图片识别模型中,基于该初始图片识别模型对该无标签仪表盘图片样本进行识别,获得该无标签仪表盘图片样本的识别结果,其中,该识别结果可以为表示该无标签仪表盘图片样本是否为翻拍图片的预测得分,比如[0,1]区间内任意的数值。
[0055]
在确定无标签仪表盘图片样本的识别结果之后,确定该无标签仪表盘图片样本的识别结果是否大于等于预设得分阈值,若是,则确定该无标签仪表盘图片可能是翻拍图片,因此将该无标签仪表盘图片样本打上“翻拍仪表盘图片”的样本伪标签。若否,则确定该无标签仪表盘图片可能是真实的无标签仪表盘图片,并不是翻拍图片,因此,不对该无标签仪表盘图片样本打上标签。比如,无标签仪表盘图片样本中的图片样本a的预测得分为0.3、图片样本b的预测得分为0.6,预设得分阈值为0.5分。基于此,该图片样本a不会打上伪标签,该图片样本b则会被打上伪标签。其中,该预设得分阈值可以根据实际应用场景进行设置,本说明书对此不做具体限制。
[0056]
在本说明书提供的实施例中,在从无标签图片样本中确定第一伪标签样本和第二伪标签样本的过程中,还可以对无标签图片样本进行数据增广,基于数据增广后获得的图片样本和无标签图片样本,确定第一伪标签样本和第二伪标签样本,从而提高了第一伪标签样本和第二伪标签样本的准确度。基于此,所述基于所述初始图片识别模型,从无标签图片样本中确定第一伪标签样本和第二伪标签样本,包括:
[0057]
基于无标签图片样本确定与所述无标签图片样本相关联的待处理图片样本;
[0058]
将所述无标签图片样本以及相关联的待处理图片样本输入所述初始图片识别模型,获得所述无标签图片样本的第一识别结果,以及所述待处理图片样本的第二识别结果;
[0059]
基于所述第一识别结果以及所述第二识别结果,从所述无标签图片样本中确定第一伪标签样本和第二伪标签样本。
[0060]
其中,待处理图片样本可以理解为对无标签样本进行数据增广后获得的图片样本。无标签图片样本的第一识别结果,可以理解为初始图片识别模型对该无标签图片样本进行识别后输出的预测得分,例如[0,1]区间内任意的数值。相应地,待处理图片样本的第二识别结果,可以理解为初始图片识别模型对该待处理图片样本进行识别后输出的预测得分,例如[0,1]区间内任意的数值。
[0061]
该无标签图片样本为可以多个,对应的,与该无标签图片样本相关联的待处理图片样本,可以理解为与每个无标签图片样本对应的待处理图片样本。进一步地,与每个无标签图片样本对应的待处理图片样本,也可以为多个,也即是,每个无标签图片样本可以对应的多个待处理图片样本。
[0062]
具体地,在基于有标签图片样本训练获得初始图片识别模型之后,能够确定出对该初始图片识别模型进行训练的无标签图片样本。并通过对该无标签图片样本进行数据增广处理,获得与该无标签图片样本相关联的待处理图片样本。并将该无标签图片样本,以及与无标签图片样本相关联的待处理图片样本,输入至初始图片识别模型,从而获得无标签图片样本的第一识别结果,以及待处理图片样本的第二识别结果。并基于该第一识别结果以及第二识别结果,从无标签图片样本中确定第一伪标签样本和第二伪标签样本。
[0063]
沿用上例,在基于有标签仪表盘图片样本训练获得初始图片识别模型之后,能够确定出对该初始图片识别模型进行训练的无标签的仪表盘图片样本a(简称图片样本a)和无标签的仪表盘图片样本b(简称图片样本b),并对图片样本a,和图片样本b进行数据增广处理,从而获得与图片样本a相关的增广图片样本a1和增广图片样本a2,以及与图片样本b相关的增广图片样本b1和增广图片样本b2。
[0064]
将该图片样本a、增广图片样本a1和增广图片样本a2,以及图片样本b、增广图片样本b1和增广图片样本b2输入至初始图片识别模型中,获得每个图片样本的预测得分,比如图片样本a为0.1分、增广图片样本a1为0.2分、增广图片样本a2为0.3分、图片样本b为0.4分、增广图片样本b1为0.5分、增广图片样本b2为0.6分。
[0065]
基于每个无标签的仪表盘图片样本的预测得分,以及每个增广图片样本的预测得分,从无标签的仪表盘图片样本中,确定出被打上伪标签的仪表盘图片样本,以及未被打上伪标签的仪表盘图片样本。
[0066]
需要说明的是,本说明书实施例中,仅以无标签图片样本的数量为两个,且与每个无标签图片样本对应的待处理图片样本的数量为两个进行举例说明,该无标签图片样本的数量和待处理图片样本的数量可以根据实际应用场景进行设置,本说明书对此不做具体限定。
[0067]
进一步的,所述基于所述第一识别结果以及所述第二识别结果,从所述无标签图片样本中确定第一伪标签样本和第二伪标签样本,包括:
[0068]
基于所述无标签图片样本的第一识别结果,以及与所述无标签图片样本相关联的待处理图片样本的第二识别结果,确定所述无标签图片样本对应的目标识别结果;
[0069]
判断所述无标签图片样本对应的目标识别结果是否大于等于预设结果阈值,
[0070]
若是,则将所述无标签图片样本确定为第一伪标签样本,
[0071]
若否,则将所述无标签图片样本确定为第二伪标签样本。
[0072]
其中,预设结果阈值可以根据实际应用场景进行设置,本说明书对此不做具体限定。例如,该预设结果阈值可以为0.5分。
[0073]
具体地,在确定出无标签图片样本的第一识别结果,以及与该无标签图片样本相关联的待处理图片样本的第二识别结果之后,能够从第一识别结果和第二识别结果确定出最大识别结果,并将该最大识别结果作为该无标签图片样本对应的目标识别结果。之后,判断该无标签图片样本对应的目标识别结果是否大于等于预设结果阈值,若是,则将该无标签图片样本确定为第一伪标签样本,若否,则将该无标签图片样本确定为第二伪标签样本。
[0074]
沿用上例,其中,预设结果阈值可以为0.5分。基于此,在确定出每个无标签的仪表盘图片样本的预测得分,以及每个增广图片样本的预测得分之后,能够从每个无标签的仪表盘图片样本的预测得分,以及与每个无标签的仪表盘图片样本相对应的增广图片样本的预测得分中,确定出最大的预测得分,并将该最大的预测得分作为无标签的仪表盘图片样本的目标预测得分。比如,图片样本a为0.1分、该图片样本a相对应的增广图片样本a1为0.2分、增广图片样本a2为0.3分,因此,将预测得分中最大的0.3分作为图片样本a的目标预测得分;图片样本b为0.4分,该图片样本b相对应的增广图片样本b1为0.5分、增广图片样本b2为0.6分,因此,将预测得分中最大的0.6分作为图片样本b的目标预测得分。
[0075]
之后判断图片样本a和图片样本b的目标预测得分是否大于等于0.5分,若是,则将
该无标签的仪表盘图片样本打上伪标签,因此,将该图片样本b打上伪标签,从而获得伪标签仪表盘图片样本。若否,则不将该无标签的仪表盘图片样本打上伪标签,因此,不会将图片样本a打上伪标签,从而确定后该图片样本a为无标签的仪表盘图片样本。
[0076]
本说明书实施例中,在伪标签阶段通过对无标签图片样本经过多次样本数据增广后,将样本数据中得分取最大值的样本数据,作为加入训练的样本(伪标签样本),提高了无标签样本的利用率。
[0077]
步骤三:基于预设确定规则从所述第一伪标签样本中确定第三伪标签样本,并基于所述第三伪标签样本从所述第二伪标签样本中确定第四伪标签样本。
[0078]
其中,预设确定规则可以根据实际应用场景进行设置,本说明书对此不做具体设置,例如,该预设确定规则可以为将特定数量的,且识别结果最接近预设结果阈值的第一伪标签样本确定为第三伪标签样本。
[0079]
该第三伪标签样本可以理解为该第一伪标签样本中的难例样本。相应地,第四伪标签样本可以理解为第二伪标签样本中的难例样本。
[0080]
具体地,本说明书提供的图片识别方法,能够基于该预设确定规则从第一伪标签样本中确定出第三伪标签样本,并基于该第三伪标签样本从第二伪标签样本中确定第四伪标签样本。
[0081]
在本说明书提供的一实施例中,所述基于预设确定规则从所述第一伪标签样本中确定第三伪标签样本,包括:
[0082]
确定所述第一伪标签样本对应的目标识别结果;
[0083]
基于所述目标识别结果对所述第一伪标签样本进行升序排序,获得所述第一伪标签样本的样本排序结果;
[0084]
按照从上到下从所述第一伪标签样本的样本排序结果中,获取第一预设数量的第一伪标签样本,并将所述第一预设数量的第一伪标签样本作为第三伪标签样本。
[0085]
其中,第一预设数量可以根据实际应用场景进行设置,本说明书对此不做具体设置,例如,该第一预设数量可以为100个、1000个。
[0086]
具体地,在从无标签图片样本中确定出第一伪标签样本之后,能够确定出该第一伪标签样本所对应的目标识别结果,并基于该目标识别结果对该第一伪标签样本进行升序排序,从而获得该第一伪标签样本的样本排序结果,之后按照从上到下的方式从该样本排序结果中获取第一预设数量的第一伪标签样本,并将该第一预设数量的第一伪标签样本作为第三伪标签样本。
[0087]
沿用上例,其中,该第一预设数量可以为100个,基于此,在从无标签的仪表盘图片样本中确定出伪标签仪表盘图片样本之后,能够将该确定出每个伪标签仪表盘图片样本对应的目标预测得分,并基于该目标预测得分对伪标签仪表盘图片样本进行升序排序,从而获得该伪标签仪表盘图片样本的样本排序结果,并按照从上到下的方式从样本排序结果中选择前100个伪标签仪表盘图片样本,并将该前100个伪标签仪表盘图片样本作为伪标签仪表盘图片样本中的难例样本。
[0088]
此外,在本说明书提供的一实施例中,该第三伪标签样本还能够从有标签图片样本中确定,具体实现方式如下。
[0089]
所述基于有标签图片样本训练获得初始图片识别模型之后,还包括:
[0090]
确定所述有标签图片样本对应的样本识别结果,其中,所述样本识别结果为基于所述有标签图片样本训练获得所述初始图片识别模型的过程中确定的识别结果;
[0091]
基于所述样本识别结果对所述有标签图片样本进行升序排序,获得所述有标签图片样本的样本排序结果;
[0092]
按照从上到下从所述有标签图片样本的样本排序结果中,获取第二预设数量的有标签图片样本,并将所述第二预设数量的有标签图片样本作为第三伪标签样本。
[0093]
其中,有标签图片样本对应的样本识别结果,可以理解为在通过有标签图片样本训练获得初始图片识别模型的过程中,图片识别模型为有标签图片样本确定出预测得分。在实际应用中,该有标签图片样本可以分为训练有标签图片样本以及测试有标签图片样本,因此,该有标签图片样本对应的样本识别结果,可以理解为该训练有标签图片样本对应的预测得分,和/或该测试有标签图片样本对应的预测得分。
[0094]
第二预设数量可以根据实际应用场景进行设置,本说明书对此不做具体设置,例如,该第二预设数量可以为100个、1000个。
[0095]
具体地,在训练获得初始图片识别模型之后,能够确定出该有标签图片样本对应的样本识别结果,基于该样本识别结果对有标签图片样本进行升序排序,从而获得有标签图片样本对应的样本排序结果;并按照从上到下从该有标签图片样本的样本排序结果中,获取第二预设数量的有标签图片样本,例如该第二预设数量为100个,且将该100个有标签图片样本作为第三伪标签样本。
[0096]
在本说明书提供的一实施例中,所述基于所述第三伪标签样本从所述第二伪标签样本中确定第四伪标签样本,包括:
[0097]
基于所述初始图片识别模型确定所述第三伪标签样本的样本特征,以及所述第二伪标签样本的样本特征;
[0098]
确定所述第三伪标签样本的样本特征以及所述第二伪标签样本的样本特征的相似度;
[0099]
基于所述相似度从所述第二伪标签样本中确定第四伪标签样本。
[0100]
其中,相似度可以理解为表征第三伪标签样本的样本特征和第二伪标签样本的样本特征之间相似程度的数值。例如[0,10]区间中的任意数值。
[0101]
具体地,在确定出第三伪标签样本之后,能够通过将该第三伪标签样本输入至初始图片识别模型中,基于初始图片识别模型确定该第三伪标签样本的样本特征,以及将该第二伪标签样本输入至初始图片识别模型中,基于初始图片识别模型确定该第二伪标签样本的样本特征。
[0102]
之后确定该每个第三伪标签样本的样本特征与第二伪标签样本的样本特征之间的相似度,并基于该相似度从第二伪标签样本中确定第四伪标签样本。其中,确定第三伪标签样本的样本特征与第二伪标签样本的样本特征之间的相似度的操作,可以通过任意一种计算样本特征之间相似度的方式实现,本说明书在此不做具体限制,例如,可以通过一种相似度确定算法确定出该相似度、或者通过计算机程序确定出该相似度。
[0103]
本说明书提供的一实施例中,在通过初始图片识别模型确定样本特征的过程中,可以通过该初始图片识别模型中用于进行特征提取的模块,实现确定第三伪标签样本的样本特征以及第二伪标签样本的样本特征的操作。具体实现方式如下。
[0104]
所述基于所述初始图片识别模型确定所述第三伪标签样本的样本特征,以及所述第二伪标签样本的样本特征,包括:
[0105]
将所述第三伪标签样本输入所述初始图片识别模型,基于所述初始图片识别模型中的特征提取模块确定所述第三伪标签样本的样本特征;
[0106]
将所述第二伪标签样本输入所述初始图片识别模型,基于所述初始图片识别模型中的特征提取模块确定所述第二伪标签样本的样本特征。
[0107]
其中,该特征提取模块可以理解为该初始图片识别模型中用于进行特征提取的模块,例如,模型中用于进行图片特征提取的网络层。
[0108]
沿用上例,该特征提取模块为初始图片识别模型中用于进行特征提取的特征提取层。基于此,将该伪标签仪表盘图片样本中的样本难例输入至初始图片识别模型中,基于该初始图片识别模型中的特征提取层对该样本难例进行特征提取处理,从而获得该样本难例的样本特征。并且,将无标签仪表盘图片样本中没有被打上伪标签的仪表盘图片样本,输入至该始图片识别模型中,基于该初始图片识别模型中的特征提取层,对该没有被打上伪标签的仪表盘图片样本进行特征提取处理,从而获得该没有被打上伪标签的仪表盘图片样本所对应的样本特征。
[0109]
之后确定出每个样本难例的样本特征,与该没有被打上伪标签的仪表盘图片样本所对应的样本特征之间的相似度,并基于该相似度从该没有被打上伪标签的仪表盘图片样本中,确定出该难例样本。
[0110]
进一步地,所述基于所述相似度从所述第二伪标签样本中确定第四伪标签样本,包括:
[0111]
基于所述相似度对所述第二伪标签样本进行降序排序,获得所述第二伪标签样本的样本排序结果;
[0112]
按照从上到下从所述第二伪标签样本的样本排序结果中,获取第三预设数量的第二伪标签样本,并将所述第三预设数量的第二伪标签样本作为第四伪标签样本。
[0113]
其中,第三预设数量可以根据实际应用场景进行设置,本说明书对此不做具体设置,例如,该第三预设数量可以为10个。
[0114]
具体地,在确定出每个第三伪标签样本的样本特征与第二伪标签样本的样本特征之间的相似度之后,基于该相似度对第二伪标签样本进行降序排序,从而获得该第二伪标签样本的对应多个降序样本排序结果,其中,每个第三伪标签样本的样本特征均对应的一个降序样本排序结果,之后按照从上到下从每个第二伪标签样本的样本排序结果中,获取第三预设数量的第二伪标签样本,例如,该第三预设数量可以为10个,则按照从上到下从每个第二伪标签样本的样本排序结果中,获取10个第二伪标签样本,并将获取到的第二伪标签样本作为第四伪标签样本。
[0115]
本说明书提供的实施例中,通过在半监督学习的训练方式中,引入相似度比对的方式进行难例挖掘,将更有价值的无标签样本加入了训练,同样大幅提高了无标签样本的利用率。
[0116]
步骤四:基于所述第一伪标签样本、所述第四伪标签样本以及所述有标签图片样本,对所述初始图片识别模型进行训练,获得训练完成的图片识别模型。
[0117]
具体地,本说明书提供的图片识别方法中,在确定出第一伪标签样本和第四伪标
签样本之后,能够基于该第一伪标签样本、第四伪标签样本以及有标签图片样本,对初始图片识别模型进行训练,从而获得训练完成的图片识别模型。其中,该基于第一伪标签样本、第四伪标签样本以及有标签图片样本训练获得初始图片识别模型的操作,可以采用任意一种基于伪标签样本和有标签图片样本对模型进行训练的方式实现,本说明书对此不做具体限制。例如,将第一伪标签样本、第四伪标签样本以及有标签图片样本,输入至初始图片识别模型中,从而获得第一伪标签样本、第四伪标签样本以及有标签图片样本对应的预测得分,确定第一伪标签样本、第四伪标签样本和有标签图片样本对应的样本标签,基于该样本标签以及预测得分确定损失值,基于该损失值对初始图片识别模型进行调参,使得该初始图片识别模型达到收敛,从而获得训练完成的图片识别模型。
[0118]
本说明书提供的实施例中,通过采用半监督学习方法进行难例挖掘,并通过对无标签图片多次增广取最大值作为伪标签并加入训练,从而提高了图片识别模型的性能,便于后续基于该图片识别模型识别出翻拍的图片,进一步地实现了图片自动化审核的目的。
[0119]
步骤104:获取所述图片识别模型对所述待识别图片的识别结果,基于所述识别结果确定所述待识别图片是否为风险图片。
[0120]
其中,该待识别图片的识别结果可以理解为判断该待识别图片是否为风险图片的预测分值,例如[0,1]区间中的任意数值;相应地,风险图片可以理解为具有风险的图片,例如虚假的图片、翻拍图片等等。
[0121]
具体地,在将待识别图片输入至训练完成的图片识别模型之后,能够获得该图片识别模型对待识别图片的识别结果,并基于识别结果确定待识别图片是否为风险图片。
[0122]
沿用上例,将该仪表盘图片输入至图片识别模型之后,基于该图片识别模型对该仪表盘图片进行识别,从而获得该图片识别模型输出的预测得分,基于该预测得分能够确定出该仪表盘图片是否为翻拍图片。
[0123]
进一步地,所述基于所述识别结果确定所述待识别图片是否为风险图片,包括:
[0124]
判断所述识别结果是否大于等于预设风险阈值,若是,则确定所述待识别图片为风险图片,若否,则确定所述待识别图片为非风险图片。
[0125]
其中,该非风险图片为不具有风险的图片,例如真实的图片、非翻拍图片等等。该预设风险阈值可以根据实际应用场景进行设置,本说明书对此不做具体限制;例如0.5分。
[0126]
沿用上例,在基于图片识别模型确定出仪表盘图片的预测得分之后,判断该预测得分是否大于等于0.5分,若是,则确定该仪表盘图片是翻拍图片,若否,则确定该仪表盘图片不是翻拍图片。
[0127]
本说明书提供的图片识别方法,包括:将待识别图片输入预先训练的图片识别模型,其中,所述图片识别模型基于有标签图片样本以及满足预设规则的无标签图片样本训练获得;获取所述图片识别模型对所述待识别图片的识别结果,基于所述识别结果确定所述待识别图片是否为风险图片。
[0128]
下述结合附图2,以本说明书提供的图片识别方法在识别仪表盘图片是否为翻拍图片场景下的应用为例,对所述图片识别方法进行进一步说明。其中,图2示出了本说明书一个实施例提供的一种图片识别方法中模型训练的过程示意图。本说明书提供的图片识别方法在识别仪表盘图片是否为翻拍图片场景下,能够将用户车辆的仪表盘图片,输入至能够识别出仪表盘图片是否为翻拍图片的图片识别模型中,基于该图片识别模型对该仪表盘
图片进行识别,从而获得该图片识别模型输出的预测得分,基于该预测得分能够确定出该仪表盘图片是否为翻拍图片。其中,在将用户车辆的仪表盘图片输入至图片识别模型中进行识别处理之前,还需要对通过有标签图片样本和无标签图片样本对该图片识别模型进行训练,从而获得训练完成的图片识别模型。基于此,针对该图片识别模型的训练步骤可以参见图2,如图2所示,本说明书提供的图片识别方法。在对该图片识别模型进行训练的步骤可以分为4个阶段,包括训练阶段一、伪标签阶段一、伪标签阶段二、训练阶段二。
[0129]
其中,该训练阶段一:是指通过人工标注的有标签图片样本对模型a进行训练,从而训练出一个初始图片识别模型a;
[0130]
其中,伪标签阶段一:是指对该无标签图片样本进行多次数据增广,从而通过不同数据增广方式得到每个无标签图片样本对应的多张图片样本。将该无标签图片样本和数据增广获得的图片样本输入至初始图片识别模型a,并将得到数据增广获得的图片样本的预测得分,以及无标签图片样本的预测得分,共同作为无标签图片样本的预测得分,也即是图2中的多次数据增广得到的多个数值;之后,从无标签图片样本的预测得分中取最大值,从而获得最大的预测得分;判断该预测得分是否高于预设阈值,若是,则将该无标签图片样本可以打标,也即是打上伪标签,从而获得伪标签样本图片样本。
[0131]
需要说明是的,该数据增广获得的图片样本可以理解为上述实施例中的待处理图片样本。预设阈值可以理解为上述实施例中的预设结果阈值。
[0132]
其中,伪标签阶段二:是指从该有标签图片样本中的确定出难例样本,该有标签图片样本可以为是训练阶段一中通过人工标注的有标签图片样本,和/或伪标签阶段一中获得伪标签图片样本。
[0133]
将有标签图片样本中的难例送入模型a中得到对应的特征,然后将大量无标签图片样本也送入模型得到对应特征;该大量无标签图片样本可以为,伪标签阶段一中除未被打标的无标签图片样本,也即是,预测得分低于等于预设阈值的无标签图片样本。
[0134]
对有标签图片样本的特征和每个无标签图片样本的特征进行相似度计算,从而获得有标签图片样本的特征和每个无标签图片样本的特征之间的相似度,并基于该相似度对该每个无标签图片样本进行排序,并将排序靠前的前10个无标签图片样本打伪标签,从而再次获得一定数量的伪标签图片样本,并将该伪标签图片样本加入后续训练中。
[0135]
其中,训练阶段二:是指将伪标签阶段一和伪标签阶段二获得的伪标签图片样本,以及训练阶段一中人工标注的有标签图片样本共同加入针对初始图片识别模型a的训练中,从而获得训练完成的目标图片识别模型a。该目标图片识别模型a可以理解为上述实施例中的预先训练的图片识别模型。
[0136]
本说明书提供的图片识别方法,通过在伪标签阶段将无标签图片样本经过多次数据增广后,将得分取最大值的样本作为加入训练的样本,提高了无标签样本的利用率。并且,通过在半监督学习的训练方式中,引入相似度比对的方式进行难例挖掘,将更有价值的无标签样本加入了训练,同样大幅提高了无标签样本的利用率。
[0137]
与上述方法实施例相对应,本说明书还提供了图片识别装置实施例,图3示出了本说明书一个实施例提供的一种图片识别装置的结构示意图。如图3所示,该装置包括:
[0138]
输入模块302,被配置为将待识别图片输入预先训练的图片识别模型,其中,所述图片识别模型基于有标签图片样本以及满足预设规则的无标签图片样本训练获得;
[0139]
确定模块304,被配置为获取所述图片识别模型对所述待识别图片的识别结果,基于所述识别结果确定所述待识别图片是否为风险图片。
[0140]
可选地,所述图片识别装置还包括模型训练模块,被配置为:
[0141]
基于所述有标签图片样本训练获得初始图片识别模型;
[0142]
基于所述初始图片识别模型,从无标签图片样本中确定第一伪标签样本和第二伪标签样本;
[0143]
基于预设确定规则从所述第一伪标签样本中确定第三伪标签样本,并基于所述第三伪标签样本从所述第二伪标签样本中确定第四伪标签样本;
[0144]
基于所述第一伪标签样本、所述第四伪标签样本以及所述有标签图片样本,对所述初始图片识别模型进行训练,获得训练完成的图片识别模型。
[0145]
可选地,所述模型训练模块,还被配置为:
[0146]
基于无标签图片样本确定与所述无标签图片样本相关联的待处理图片样本;
[0147]
将所述无标签图片样本以及相关联的待处理图片样本输入所述初始图片识别模型,获得所述无标签图片样本的第一识别结果,以及所述待处理图片样本的第二识别结果;
[0148]
基于所述第一识别结果以及所述第二识别结果,从所述无标签图片样本中确定第一伪标签样本和第二伪标签样本。
[0149]
可选地,所述模型训练模块,还被配置为:
[0150]
基于所述无标签图片样本的第一识别结果,以及与所述无标签图片样本相关联的待处理图片样本的第二识别结果,确定所述无标签图片样本对应的目标识别结果;
[0151]
判断所述无标签图片样本对应的目标识别结果是否大于等于预设结果阈值,
[0152]
若是,则将所述无标签图片样本确定为第一伪标签样本,
[0153]
若否,则将所述无标签图片样本确定为第二伪标签样本。
[0154]
可选地,所述模型训练模块,还被配置为:
[0155]
确定所述第一伪标签样本对应的目标识别结果;
[0156]
基于所述目标识别结果对所述第一伪标签样本进行升序排序,获得所述第一伪标签样本的样本排序结果;
[0157]
按照从上到下从所述第一伪标签样本的样本排序结果中,获取第一预设数量的第一伪标签样本,并将所述第一预设数量的第一伪标签样本作为第三伪标签样本。
[0158]
可选地,所述模型训练模块,还被配置为:
[0159]
确定所述有标签图片样本对应的样本识别结果,其中,所述样本识别结果为基于所述有标签图片样本训练获得所述初始图片识别模型的过程中确定的识别结果;
[0160]
基于所述样本识别结果对所述有标签图片样本进行升序排序,获得所述有标签图片样本的样本排序结果;
[0161]
按照从上到下从所述有标签图片样本的样本排序结果中,获取第二预设数量的有标签图片样本,并将所述第二预设数量的有标签图片样本作为第三伪标签样本。
[0162]
可选地,所述模型训练模块,还被配置为:
[0163]
基于所述初始图片识别模型确定所述第三伪标签样本的样本特征,以及所述第二伪标签样本的样本特征;
[0164]
确定所述第三伪标签样本的样本特征以及所述第二伪标签样本的样本特征的相
似度;
[0165]
基于所述相似度从所述第二伪标签样本中确定第四伪标签样本。
[0166]
可选地,所述模型训练模块,还被配置为:
[0167]
将所述第三伪标签样本输入所述初始图片识别模型,基于所述初始图片识别模型中的特征提取模块确定所述第三伪标签样本的样本特征;
[0168]
将所述第二伪标签样本输入所述初始图片识别模型,基于所述初始图片识别模型中的特征提取模块确定所述第二伪标签样本的样本特征。
[0169]
可选地,所述模型训练模块,还被配置为:
[0170]
基于所述相似度对所述第二伪标签样本进行降序排序,获得所述第二伪标签样本的样本排序结果;
[0171]
按照从上到下从所述第二伪标签样本的样本排序结果中,获取第三预设数量的第二伪标签样本,并将所述第三预设数量的第二伪标签样本作为第四伪标签样本。
[0172]
可选地,所述确定模块304,还被配置为:
[0173]
判断所述识别结果是否大于等于预设风险阈值,若是,则确定所述待识别图片为风险图片,若否,则确定所述待识别图片为非风险图片。
[0174]
本说明书提供的图片识别装置,通过基于有标签图片样本以及满足预设规则的无标签图片样本训练获得的图片识别模型,识别输入的待识别图片是否为风险图片,从而提高了风险图片的识别效率,降低了图片验证过程的难度。
[0175]
上述为本实施例的一种图片识别装置的示意性方案。需要说明的是,该图片识别装置的技术方案与上述的图片识别方法的技术方案属于同一构思,图片识别装置的技术方案未详细描述的细节内容,均可以参见上述图片识别方法的技术方案的描述。
[0176]
图4示出了根据本说明书一个实施例提供的一种计算设备400的结构框图。该计算设备400的部件包括但不限于存储器410和处理器420。处理器420与存储器410通过总线430相连接,数据库450用于保存数据。
[0177]
计算设备400还包括接入设备440,接入设备440使得计算设备400能够经由一个或多个网络460通信。这些网络的示例包括公用交换电话网(pstn)、局域网(lan)、广域网(wan)、个域网(pan)或诸如因特网的通信网络的组合。接入设备440可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(nic))中的一个或多个,诸如ieee802.11无线局域网(wlan)无线接口、全球微波互联接入(wi-max)接口、以太网接口、通用串行总线(usb)接口、蜂窝网络接口、蓝牙接口、近场通信(nfc)接口,等等。
[0178]
在本说明书的一个实施例中,计算设备400的上述部件以及图4中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图4所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
[0179]
计算设备400可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或pc的静止计算设备。计算设备400还可以是移动式或静止式的服务器。
[0180]
其中,处理器420用于执行如下计算机可执行指令,该计算机可执行指令被处理器420执行时实现上述图片识别方法的步骤。
[0181]
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的图片识别方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述图片识别方法的技术方案的描述。
[0182]
本说明书一实施例还提供一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现上述图片识别方法的步骤。
[0183]
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的图片识别方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述图片识别方法的技术方案的描述。
[0184]
本说明书一实施例还提供一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述图片识别方法的步骤。
[0185]
上述为本实施例的一种计算机程序的示意性方案。需要说明的是,该计算机程序的技术方案与上述的图片识别方法的技术方案属于同一构思,计算机程序的技术方案未详细描述的细节内容,均可以参见上述图片识别方法的技术方案的描述。
[0186]
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
[0187]
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
[0188]
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本说明书实施例并不受所描述的动作顺序的限制,因为依据本说明书实施例,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本说明书实施例所必须的。
[0189]
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
[0190]
以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书实施例的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本说明书实施例的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。
转载请注明原文地址:https://tc.8miu.com/read-2250.html