1.本公开涉及人工智能技术领域,尤其涉及深度学习、图像处理、计算机视觉技术领域,可应用于光学字符识别等场景,具体而言,涉及一种样本数据集的生成方法、装置及电子设备。
背景技术:
2.目前,随着ocr(光学字符识别)技术的快速发展,设备逐步替代人工对纸质文件(比如:发票、文章等)所对应的图像中的文字进行查阅或审核,但由于这些纸质文件的版式复杂多样,且存在大量文字重叠,文字行长短不一的问题,因此通过相关设备对纸质文件所对应的图像中的文字进行检测仍旧存在一定的缺陷。
3.目前,现有的数据增广方法对数据本身的利用不够,没有充分挖掘数据的潜力,并不能有效增加样本数据集。
技术实现要素:
4.本公开提供了一种样本数据集的生成方法、装置及电子设备。
5.根据本公开的一方面,提供了一种样本数据集的生成方法,包括:获取原始图像,其中,原始图像中至少包括文本区域;对原始图像进行色彩变换处理,得到至少一个第一图像;对至少一个第一图像进行裁剪处理,得到多个第一子图像;对多个第一子图像进行贴合处理,得到多个目标图像;基于多个目标图像生成样本数据集,其中,样本数据集用于对预设模型进行训练,预设模型至少用于识别待识别图像中的文本区域。
6.进一步地,样本数据集的生成方法还包括:从多个色彩变换处理方式中随机确定目标处理方式;基于目标处理方式对原始图像进行色彩变换,得到至少一个第一图像。
7.进一步地,样本数据集的生成方法还包括:在目标处理方式为色彩扰动处理方式时,对原始图像的颜色通道进行随机增强,得到至少一个第一图像,其中,颜色通道至少包括:亮度通道、饱和度通道。
8.进一步地,样本数据集的生成方法还包括:在目标处理方式为噪声添加方式时,从多个噪声信号中随机确定目标噪声信号;基于目标噪声信号对原始图像进行噪声叠加处理,得到至少一个第一图像。
9.进一步地,样本数据集的生成方法还包括:在目标处理方式为灰度处理方式时,将原始图像转换为灰度图像,得到至少一个第一图像。
10.进一步地,样本数据集的生成方法还包括:确定至少一个第一图像中的每个第一图像所对应的裁剪数量,其中,裁剪数量表征对每个第一图像进行裁剪所得到的图像数量;基于裁剪数量将每个第一图像裁剪为多个图像,得到多个第一子图像。
11.进一步地,样本数据集的生成方法还包括:检测至少一个第一图像中的目标文本区域;基于裁剪数量以及目标文本区域对每个第一图像进行裁剪,得到多个第一子图像,其中,目标文本区域位于多个第一子图像中的任意一个图像中。
12.进一步地,样本数据集的生成方法还包括:从多个第一子图像中确定组成每个目标图像的至少一个第二图像;随机确定至少一个第二图像在对应的目标图像上的图像位置;基于图像位置对至少一个第二图像进行贴合,得到多个目标图像。
13.进一步地,样本数据集的生成方法还包括:对多个目标图像进行几何变换处理,得到多个第三图像;基于多个第三图像构建样本数据集。
14.进一步地,样本数据集的生成方法还包括:通过如下任意一种或多种方式对多个目标图像进行几何变换处理:对多个目标图像进行旋转操作;对多个目标图像进行仿射变换操作;对多个目标图像进行透视变换操作。
15.根据本公开的另一方面,提供了一种样本数据集的生成装置,包括:获取模块,用于获取原始图像,其中,原始图像中至少包括文本区域;变换模块,用于对原始图像进行色彩变换处理,得到至少一个第一图像;裁剪模块,用于对至少一个第一图像进行裁剪处理,得到多个第一子图像;贴合模块,用于对多个第一子图像进行贴合处理,得到多个目标图像;生成模块,用于基于多个目标图像生成样本数据集,其中,样本数据集用于对预设模型进行训练,预设模型至少用于识别待识别图像中的文本区域。
16.进一步地,变换模块还包括:第一确定模块,用于从多个色彩变换处理方式中随机确定目标处理方式;第一子变换模块,用于基于目标处理方式对原始图像进行色彩变换,得到至少一个第一图像。
17.进一步地,第一子变换模块还包括:第一处理模块,用于在目标处理方式为色彩扰动处理方式时,对原始图像的颜色通道进行随机增强,得到至少一个第一图像,其中,颜色通道至少包括:亮度通道、饱和度通道。
18.进一步地,第一子变换模块还包括:第二确定模块,用于在目标处理方式为噪声添加方式时,从多个噪声信号中随机确定目标噪声信号;第二处理模块,用于基于目标噪声信号对原始图像进行噪声叠加处理,得到至少一个第一图像。
19.进一步地,第一子变换模块还包括:第三处理模块,用于在目标处理方式为灰度处理方式时,将原始图像转换为灰度图像,得到至少一个第一图像。
20.进一步地,裁剪模块还包括:第三确定模块,用于确定至少一个第一图像中的每个第一图像所对应的裁剪数量,其中,裁剪数量表征对每个第一图像进行裁剪所得到的图像数量;第一子裁剪模块,用于基于裁剪数量将每个第一图像裁剪为多个图像,得到多个第一子图像。
21.进一步地,第一子裁剪模块还包括:检测模块,用于检测至少一个第一图像中的目标文本区域;第二子裁剪模块,用于基于裁剪数量以及目标文本区域对每个第一图像进行裁剪,得到多个第一子图像,其中,目标文本区域位于多个第一子图像中的任意一个图像中。
22.根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行上述的样本数据集的生成方法。
23.根据本公开的另一方面,提供了一种储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行上述的样本数据集的生成方法。
24.根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,计算机程
序在被处理器执行时实现上述的样本数据集的生成方法。
25.在本公开的实施例中,采用基于原始图像得到多个目标图像以生成样本数据集的方式,通过获取原始图像,对原始图像进行色彩变换处理,得到至少一个第一图像,并对至少一个第一图像进行裁剪处理,得到多个第一子图像,然后对多个第一子图像进行贴合处理,得到多个目标图像,从而基于多个目标图像生成样本数据集。其中,述原始图像中至少包括文本区域,样本数据集用于对预设模型进行训练,预设模型至少用于识别待识别图像中的文本区域。
26.在上述过程中,通过对原始图像依次进行色彩变换处理和裁剪处理,并对裁剪得到的第一子图像进行贴合处理,可以有效获取到与原始图像对应的多个存在部分相同文字内容但图像显示内容不同的目标图像,即实现了根据原始图像得到多个与模型训练需求相对应的目标图像,从而可以有效增加训练样本集,同时,还可以避免采用对图像进行标注的方式生成样本数据集,从而节省标注成本。
27.由此可见,本公开所提供的方案达到了基于原始图像得到多个目标图像以生成样本数据集的目的,从而实现了增加训练样本集的技术效果,进而解决了现有的数据增广方法无法有效的增加样本数据集的技术问题。
28.应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
29.附图用于更好地理解本方案,不构成对本公开的限定。其中:
30.图1是根据本公开实施例的样本数据集的生成方法的示意图;
31.图2是根据本公开实施例的样本数据集的生成方法的示意图;
32.图3是根据本公开实施例的样本数据集的生成装置的示意图;
33.图4是用来实现本公开实施例的样本数据集的生成方法的电子设备的框图。
具体实施方式
34.以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
35.需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
36.本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
37.实施例1
38.根据本公开实施例,提供了一种样本数据集的生成方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
39.图1是根据本公开实施例的样本数据集的生成方法的示意图,如图1、图2所示,该方法包括如下步骤:
40.步骤s102,获取原始图像,其中,原始图像中至少包括文本区域。
41.在步骤s102中,可以通过图像处理系统、电子设备、处理器等装置获取原始图像。其中,原始图像可以是基于相机、手机等具有拍照功能的设备对实体文件进行拍照生成的,也可以是基于扫描仪等具有扫描功能的设备对实体文件进行扫描生成的。所生成的原始图像至少包括该实体文件上的部分文本区域,实体文件可以是纸质文件,也可以是其它材质(如:布料、石刻等)的文件。
42.可选的,在本实施例中,通过图像处理系统获取原始图像,原始图像为基于纸质票据所生成的图像。
43.需要说明的是,通过获取原始图像,以便于后续对原始图像进行处理,实现对样本数据集的生成。
44.步骤s104,对原始图像进行色彩变换处理,得到至少一个第一图像。
45.在步骤s104中,图像处理系统可以对原始图像的整个区域进行色彩变换,也可以对原始图像的部分区域进行色彩变换。其中,图像处理系统可以在原始图像中通过随机选取确定前述的部分区域,也可以将原始图像中某一种特定的颜色所对应的区域确定为前述的部分区域,还可以是通过其它方式对部分区域进行确定。
46.可选的,色彩变换表征对原始图像中的色彩进行改变。具体地,色彩变换可以是对原始图像中的亮度、对比度、饱和度的改变,也可以是对原始图像中的色相(即颜色)进行改变。
47.需要说明的是,通过对原始图像进行色彩变换处理,一方面,可以使得到的第一图像多样化,从而有利于丰富样本数据集;另一方面,可以使得原始图像中的部分图像特征更加明显,原始图像中的文字更易被识别,从而提高工作效率。
48.步骤s106,对至少一个第一图像进行裁剪处理,得到多个第一子图像。
49.在步骤s106中,图像处理系统可以对第一图像进行随机裁剪,也可以仅对第一图像中的文本区域进行裁剪,还可以仅对第一图像中带有指定颜色或不带有指定颜色的区域进行裁剪。
50.需要说明的是,基于裁剪处理获取多个第一子图像,一方面,便于实现后续对多个目标图像的获取;另一方面,增加了所得到的第一子图像的尺度的多样性,从而可以进一步提高目标对象的多样性。
51.步骤s108,对多个第一子图像进行贴合处理,得到多个目标图像。
52.在步骤s108中,图像处理系统可以将对应于原始图像的所有第一子图像均贴合在预设的画布中,也可以随机或指定选取部分第一子图像贴合在预设的画布中。
53.进一步地,在贴合过程中,各第一子图像的位置可以是随机分布,也可以是按照特
定的顺序进行排列或摆放,例如:图像处理系统依据各第一子图像中的文字数量将第一子图像由第一方向排列至第二方向,或是图像处理系统依据各第一子图像中的文字字体(如:手写字体或印刷字体)将第一子图像分别摆放在第一方向和第二方向,其中,第一方向与第二方向不同。
54.需要说明的是,通过将与原始图像对应的多个第一子图像进行贴合处理,可以得到多个存在部分相同文字内容但图像显示内容不同的目标图像,从而可以一方面有效实现数据增广,另一方面有效增加重叠样本量,便于对模型进行训练。
55.步骤s110,基于多个目标图像生成样本数据集,其中,样本数据集用于对预设模型进行训练,预设模型至少用于识别待识别图像中的文本区域。
56.在步骤s110中,图像处理系统可以先对多个目标图像进行图像处理后,再生成样本数据集,其中,对多个目标图像进行的图像处理可以是对目标图像进行几何变换、颜色变换或其它处理方式。
57.在步骤s110中,通过基于多个目标图像生成样本数据集,实现了有效增加样本数据集的效果,同时,还避免了采用对图像进行标注的方式生成样本数据集,从而节省了标注成本。
58.目前,由于对文字进行标注的标注成本高,现有技术通常基于数据增广的方式,来丰富用于训练相关设备中的模型的样本数据集,提高文字检测效果。其中,经典的文字检测算法包括:
59.(1)、east:对图像进行裁剪、缩放处理。
60.(2)、dbnet:对图像进行裁剪、缩放、翻转、旋转处理。
61.(3)、psenet:对图像进行裁剪、缩放、翻转、旋转处理。
62.然而,以上这些文字检测算法对应的数据增广方法对图像所进行的处理都较为简单,对数据本身的利用不够,并没有充分挖掘数据的潜力,从而不能有效增加样本数据集。因此,为了解决上述问题,本公开提供了上述的样本数据集的生成方法。
63.基于上述步骤s102至步骤s110所限定的方案,可以获知,在本公开的实施例中,采用基于原始图像得到多个目标图像以生成样本数据集的方式,通过获取原始图像,对原始图像进行色彩变换处理,得到至少一个第一图像,并对至少一个第一图像进行裁剪处理,得到多个第一子图像,然后对多个第一子图像进行贴合处理,得到多个目标图像,从而基于多个目标图像生成样本数据集。其中,述原始图像中至少包括文本区域,样本数据集用于对预设模型进行训练,预设模型至少用于识别待识别图像中的文本区域。
64.容易注意到的是,在上述过程中,通过对原始图像依次进行色彩变换处理和裁剪处理,并对裁剪得到的第一子图像进行贴合处理,可以有效获取到与原始图像对应的多个存在部分相同文字内容但图像显示内容不同的目标图像,即实现了根据原始图像得到多个与模型训练需求相对应的目标图像,从而可以有效增加训练样本集,同时,还可以避免采用对图像进行标注的方式生成样本数据集,从而节省标注成本。
65.由此可见,本公开所提供的方案达到了基于原始图像得到多个目标图像以生成样本数据集的目的,从而实现了增加训练样本集的技术效果,进而解决了现有的数据增广方法无法有效的增加样本数据集的技术问题。
66.在一种可选的实施例中,图像处理系统可以从多个色彩变换处理方式中随机确定
目标处理方式,从而基于目标处理方式对原始图像进行色彩变换,得到至少一个第一图像。
67.可选的,多个色彩变换处理方式可以预置在图像处理系统、存储器或其它具有存储功能的装置中,如图2所示,色彩变换处理方式至少包括色彩扰动方式、噪声添加模式和灰度处理模式,以对原始图像中的亮度、对比度、饱和度、色相、噪声中的至少一个属性进行调整。
68.需要说明的是,通过在多个色彩变换处理方式中随机选取某一色彩变换处理方式对原始图像进行色彩变换,实现了对第一图像中不同图像特征的增强,从而可以使得得到的第一图像多样化,从而有利于丰富样本数据集。
69.在一种可选的实施例中,在目标处理方式为色彩扰动处理方式时,图像处理系统可以对原始图像的颜色通道进行随机增强,得到至少一个第一图像,其中,颜色通道至少包括:亮度通道、饱和度通道。
70.可选的,在获取到原始图像时,图像处理系统可以在原始图像对应的hsv(hue,saturation,value)通道、rgb通道、亮度通道、饱和度通道、对比度通道中随机选取至少一种颜色通道,并对所选取的颜色通道进行增强处理,从而得到至少一个第一图像。其中,对像rgb通道这种本身又可分为r通道、g通道和b通道的颜色通道,图像处理系统可以从r通道、g通道和b通道中随机选取至少一个颜色通道进行增强,也可以对其进行整体进行增强。
71.需要说明的是,通过对原始图像的颜色通道进行随机增强,可以给带有色彩的图像的部分图像特征带来显著增益,从而一方面,有利于提高目标图像的多样性,另一方面,便于图像处理系统对第一图像进行处理。
72.在一种可选的实施例中,在目标处理方式为噪声添加方式时,图像处理系统可以从多个噪声信号中随机确定目标噪声信号,并基于目标噪声信号对原始图像进行噪声叠加处理,得到至少一个第一图像。
73.可选的,图像处理系统可以从高斯噪声、泊松噪声、乘性噪声、瑞利噪声、伽马噪声以及椒盐噪声等噪声信号中随机确定目标噪声信号,以对原始图像进行噪声叠加处理。其中,在确定了目标噪声信号后,图像处理系统还可以依据目标噪声信号随机确定相关参数值,例如:当目标噪声信号为椒盐噪声时,目标噪声信号所对应的相关参数值至少包括信噪比和像素值,因此,图像处理系统可以在[0,1]区间内随机确定信噪比,并在像素值255和像素值0之间随机确定目标像素值,从而基于目标噪声信号及其随机确定的参数值对原始图像进行噪声叠加处理。需要强调的是,图像处理系统也可以基于目标噪声信号及其随机确定的参数值对原始图像进行噪声叠加处理,以得到至少一个第一图像。
[0074]
需要说明的是,通过对原始图像进行噪声叠加处理,一方面,可以进一步地提高目标图像的多样性,另一方面,也便于图像处理系统对第一图像进行处理。
[0075]
在一种可选的实施例中,在目标处理方式为灰度处理方式时,图像处理系统可以将原始图像转换为灰度图像,得到至少一个第一图像。
[0076]
可选的,图像处理系统可以从分量法、最大值法、平均值法以及加权平均法等算法中随机选取一种灰度处理算法以将原始图像转换为灰度图像,也可以基于预设的灰度处理算法将原始图像转换为灰度图像。
[0077]
需要说明的是,通过将原始图像转换为灰度图像,一方面,可以更进一步地提高目标图像的多样性,另一方面,可以降低原始图像的维度,从而提高图像处理系统的运算速
度。
[0078]
在一种可选的实施例中,当得到至少一个第一图像后,图像处理系统确定至少一个第一图像中的每个第一图像所对应的裁剪数量,从而基于裁剪数量将每个第一图像裁剪为多个图像,得到多个第一子图像。其中,裁剪数量表征对每个第一图像进行裁剪所得到的图像数量。
[0079]
其中,每个第一图像所对应的裁剪数量可以相同,也可以不同。具体地,图像处理系统可以在预设的取值范围内随机选取一个值以将该值确定为裁剪数量,也可以将系统中预设的固定值确定为裁剪数量。其中,预设的取值范围和固定值可以是固定的,也可以依据第一图像所对应的原始图像种类的不同而有所不同,例如,在图像处理系统获取到原始图像前,操作人员可通过图像处理系统或第三方服务器确定各原始图像所属种类(如:交通类发票、酒店类发票等)并对各原始图像进行种类标识,从而使得图像处理系统在确定第一图像的裁剪数量时,可以依据种类标识确定对应的取值范围或固定值。
[0080]
可选的,操作人员也可以在图像处理系统中将第一图像中的文本区域大小划分为多种类型,并对每一种类型分别设置对应的裁剪数量,从而使得图像处理系统可以基于第一图像中的文本区域大小确定裁剪数量。
[0081]
需要说明的是,通过确定第一图像所对应的裁剪数量,以实现对第一子图像数量的确定。
[0082]
在一种可选的实施例中,当图像处理系统得到多个第一子图像后,图像处理系统可以检测至少一个第一图像中的目标文本区域,从而基于裁剪数量以及目标文本区域对每个第一图像进行裁剪,得到多个第一子图像。其中,目标文本区域位于多个第一子图像中的任意一个图像中。
[0083]
可选的,图像处理系统将第一图像随机裁剪成与裁剪数量相对应的多个第一子图像,每个第一子图像中均具有目标文本区域中的部分文字内容,且每个第一子图像的区域大小可以存在不同。具体地,在裁剪过程中,图像处理系统保持目标文本区域内字段的完整性,即不对字段或与字段关联内容进行裁剪,比如:票据中会显示“开票人:张三”等文字,其中,当“开票人:张三”作为一整个字段时,为了不破坏字段结构,不对该字段进行裁剪,当“开票人:”和“张三”各单独作为一个字段时,“开票人:”和“张三”为关联内容,为了不破坏字段含义,裁剪时,图像处理系统也不对“开票人:张三”进行裁剪。
[0084]
需要说明的是,通过将目标文本区域分布到多个第一子图像中,一方面,可以使得每一个第一子图像均包含有效信息,即保证了每个目标图像都为有效数据,另一方面,避免了目标文本区域仅存在在一个第一子图像中的现象发生,从而保证了目标图像的多样性。
[0085]
在一种可选的实施例中,当得到多个第一子图像后,图像处理系统从多个第一子图像中确定组成每个目标图像的至少一个第二图像,并随机确定至少一个第二图像在对应的目标图像上的图像位置,从而基于图像位置对至少一个第二图像进行贴合,得到多个目标图像。
[0086]
可选的,在本实施例中,图像处理系统可以从对应于同一个第一图像的多个第一子图像中确定任意数量的第二图像,也可以从分别对应于不同第一图像的多个第一子图像中确定任意数量的第二图像。当确定了第二图像之后,图像处理系统随机确定各第二图像在画布上的图像位置,并可以基于cutmix方法(一种将一个图像的一部分切割下来并粘贴
到另外一张图像上的方法)将各第二图像贴合至画布,从而得到多个目标图像。
[0087]
需要说明的是,通过随机确定第二图像在目标图像上的图像位置,使得即使所选取多个第二图像相同,其产生的目标图像也会有所不同,从而可以进一步增加目标图像的重叠样本量。
[0088]
在一种可选的实施例中,如图2所示,在得到多个目标图像之后,图像处理系统可以对多个目标图像进行几何变换处理,得到多个第三图像,从而基于多个第三图像构建样本数据集。
[0089]
可选的,图像处理系统对多个目标图像进行的几何变换处理可以是对目标图像进行拉伸、旋转、镜像、透视变换等方式。
[0090]
需要说明的是,通过对目标图像进行几何变换处理,可以有效丰富目标图像的点坐标信息,从而实现丰富样本数据集的效果。
[0091]
在一种可选的实施例中,图像处理系统可以通过如下任意一种或多种方式对多个目标图像进行几何变换处理:对多个目标图像进行旋转操作;对多个目标图像进行仿射变换操作;对多个目标图像进行透视变换操作。
[0092]
具体地,在本实施例中,如图2所示,图像处理系统可以从旋转、仿射变换和透视变换中随机选取至少一种操作以对目标图像进行几何变换。其中,对目标图像进行的旋转操作可以是对目标图像进行随机角度的旋转,在本实施例中,角度值为10
°
或-10
°
。仿射变换表征对目标图像的对角进行拉伸,拉伸程度可以基于系统中预设的位移值或位移范围进行确定。透视变换用于仿照不同观察视角下所看到的目标图像的样式。
[0093]
需要说明的是,通过基于旋转、仿射变换或透视变换对目标图像进行几何变换,一方面,实现了对样本数据集的丰富,另一方面,可以使得得到的第三图像更加符合实际场景中所产生的图像样式,进而使得在通过第三图像所构建的样本数据集对模型进行训练后,该训练好的模型的检测效果更好。
[0094]
需要说明的是,本公开可以显著提升相关设备进行文字检测的效果,且尤其适用于样本数量较少的情况,即有效节省标注成本。
[0095]
由此可见,本公开所提供的方案达到了基于原始图像得到多个目标图像以生成样本数据集的目的,从而实现了增加训练样本集的技术效果,进而解决了现有的数据增广方法无法有效的增加样本数据集的技术问题。
[0096]
实施例2
[0097]
根据本公开实施例,提供了一种样本数据集的生成装置的实施例,其中,图3是根据本公开实施例的样本数据集的生成装置的示意图,如图3所示,该装置包括:
[0098]
获取模块302,用于获取原始图像,其中,原始图像中至少包括文本区域;
[0099]
变换模块304,用于对原始图像进行色彩变换处理,得到至少一个第一图像;
[0100]
裁剪模块306,用于对至少一个第一图像进行裁剪处理,得到多个第一子图像;
[0101]
贴合模块308,用于对多个第一子图像进行贴合处理,得到多个目标图像;
[0102]
生成模块310,用于基于多个目标图像生成样本数据集,其中,样本数据集用于对预设模型进行训练,预设模型至少用于识别待识别图像中的文本区域。
[0103]
需要说明的是,上述获取模块302、变换模块304、裁剪模块306、贴合模块308以及生成模块310对应于上述实施例中的步骤s102至步骤s110,四个模块与对应的步骤所实现
的示例和应用场景相同,但不限于上述实施例1所公开的内容。
[0104]
可选的,变换模块还包括:第一确定模块,用于从多个色彩变换处理方式中随机确定目标处理方式;第一子变换模块,用于基于目标处理方式对原始图像进行色彩变换,得到至少一个第一图像。
[0105]
可选的,第一子变换模块还包括:第一处理模块,用于在目标处理方式为色彩扰动处理方式时,对原始图像的颜色通道进行随机增强,得到至少一个第一图像,其中,颜色通道至少包括:亮度通道、饱和度通道。
[0106]
可选的,第一子变换模块还包括:第二确定模块,用于在目标处理方式为噪声添加方式时,从多个噪声信号中随机确定目标噪声信号;第二处理模块,用于基于目标噪声信号对原始图像进行噪声叠加处理,得到至少一个第一图像。
[0107]
可选的,第一子变换模块还包括:第三处理模块,用于在目标处理方式为灰度处理方式时,将原始图像转换为灰度图像,得到至少一个第一图像。
[0108]
可选的,裁剪模块还包括:第三确定模块,用于确定至少一个第一图像中的每个第一图像所对应的裁剪数量,其中,裁剪数量表征对每个第一图像进行裁剪所得到的图像数量;第一子裁剪模块,用于基于裁剪数量将每个第一图像裁剪为多个图像,得到多个第一子图像。
[0109]
可选的,第一子裁剪模块还包括:检测模块,用于检测至少一个第一图像中的目标文本区域;第二子裁剪模块,用于基于裁剪数量以及目标文本区域对每个第一图像进行裁剪,得到多个第一子图像,其中,目标文本区域位于多个第一子图像中的任意一个图像中。
[0110]
可选的,贴合模块还包括:第四确定模块,用于从多个第一子图像中确定组成每个目标图像的至少一个第二图像;第五确定模块,用于随机确定至少一个第二图像在对应的目标图像上的图像位置;第一子贴合模块,用于基于图像位置对至少一个第二图像进行贴合,得到多个目标图像。
[0111]
可选的,样本数据集的生成装置还包括:第四处理模块,用于对多个目标图像进行几何变换处理,得到多个第三图像;构建模块,用于基于多个第三图像构建样本数据集。
[0112]
可选的,样本数据集的生成装置还包括:第五处理模块,用于通过如下任意一种或多种方式对多个目标图像进行几何变换处理:对多个目标图像进行旋转操作;对多个目标图像进行仿射变换操作;对多个目标图像进行透视变换操作。
[0113]
实施例3
[0114]
根据本公开的实施例,本公开还提供了一种电子设备、一种存储有计算机指令的非瞬时计算机可读存储介质和一种计算机程序产品。
[0115]
图4示出了可以用来实施本公开的实施例的示例电子设备400的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
[0116]
如图4所示,设备400包括计算单元401,其可以根据存储在只读存储器(rom)402中的计算机程序或者从存储单元408加载到随机访问存储器(ram)403中的计算机程序,来执
行各种适当的动作和处理。在ram 403中,还可存储设备400操作所需的各种程序和数据。计算单元401、rom 402以及ram 403通过总线404彼此相连。输入/输出(i/o)接口405也连接至总线404。
[0117]
设备400中的多个部件连接至i/o接口405,包括:输入单元406,例如键盘、鼠标等;输出单元407,例如各种类型的显示器、扬声器等;存储单元408,例如磁盘、光盘等;以及通信单元409,例如网卡、调制解调器、无线通信收发机等。通信单元409允许设备400通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
[0118]
计算单元401可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元401的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元401执行上文所描述的各个方法和处理,例如样本数据集的生成方法。例如,在一些实施例中,样本数据集的生成方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元408。在一些实施例中,计算机程序的部分或者全部可以经由rom 402和/或通信单元409而被载入和/或安装到设备400上。当计算机程序加载到ram 403并由计算单元401执行时,可以执行上文描述的样本数据集的生成方法的一个或多个步骤。备选地,在其他实施例中,计算单元401可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行样本数据集的生成方法。
[0119]
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
[0120]
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
[0121]
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0122]
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机
具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
[0123]
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。
[0124]
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
[0125]
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
[0126]
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
技术特征:
1.一种样本数据集的生成方法,包括:获取原始图像,其中,所述原始图像中至少包括文本区域;对所述原始图像进行色彩变换处理,得到至少一个第一图像;对所述至少一个第一图像进行裁剪处理,得到多个第一子图像;对所述多个第一子图像进行贴合处理,得到多个目标图像;基于所述多个目标图像生成样本数据集,其中,所述样本数据集用于对预设模型进行训练,所述预设模型至少用于识别待识别图像中的文本区域。2.根据权利要求1所述的方法,其中,对所述原始图像进行色彩变换处理,得到至少一个第一图像,包括:从多个色彩变换处理方式中随机确定目标处理方式;基于所述目标处理方式对所述原始图像进行色彩变换,得到所述至少一个第一图像。3.根据权利要求2所述的方法,其中,基于所述目标处理方式对所述原始图像进行色彩变换,得到所述至少一个第一图像,包括:在所述目标处理方式为色彩扰动处理方式时,对所述原始图像的颜色通道进行随机增强,得到所述至少一个第一图像,其中,所述颜色通道至少包括:亮度通道、饱和度通道。4.根据权利要求2所述的方法,其中,基于所述目标处理方式对所述原始图像进行色彩变换,得到所述至少一个第一图像,包括:在所述目标处理方式为噪声添加方式时,从多个噪声信号中随机确定目标噪声信号;基于所述目标噪声信号对所述原始图像进行噪声叠加处理,得到所述至少一个第一图像。5.根据权利要求2所述的方法,其中,基于所述目标处理方式对所述原始图像进行色彩变换,得到所述至少一个第一图像,包括:在所述目标处理方式为灰度处理方式时,将所述原始图像转换为灰度图像,得到所述至少一个第一图像。6.根据权利要求1所述的方法,其中,对所述至少一个第一图像进行裁剪处理,得到多个第一子图像,包括:确定所述至少一个第一图像中的每个第一图像所对应的裁剪数量,其中,所述裁剪数量表征对所述每个第一图像进行裁剪所得到的图像数量;基于所述裁剪数量将所述每个第一图像裁剪为多个图像,得到所述多个第一子图像。7.根据权利要求6所述的方法,其中,基于所述裁剪数量将所述每个第一图像裁剪为多个图像,得到所述多个第一子图像,包括:检测所述至少一个第一图像中的目标文本区域;基于所述裁剪数量以及所述目标文本区域对所述每个第一图像进行裁剪,得到所述多个第一子图像,其中,所述目标文本区域位于所述多个第一子图像中的任意一个图像中。8.根据权利要求1所述的方法,其中,对所述多个第一子图像进行贴合处理,得到多个目标图像,包括:从所述多个第一子图像中确定组成每个目标图像的至少一个第二图像;随机确定所述至少一个第二图像在对应的目标图像上的图像位置;基于所述图像位置对所述至少一个第二图像进行贴合,得到所述多个目标图像。
9.根据权利要求1所述的方法,其中,在对所述多个第一子图像进行贴合处理,得到多个目标图像之后,所述方法还包括:对所述多个目标图像进行几何变换处理,得到多个第三图像;基于所述多个第三图像构建所述样本数据集。10.根据权利要求9所述的方法,其中,所述方法还包括:通过如下任意一种或多种方式对所述多个目标图像进行几何变换处理:对所述多个目标图像进行旋转操作;对所述多个目标图像进行仿射变换操作;对所述多个目标图像进行透视变换操作。11.一种样本数据集的生成装置,包括:获取模块,用于获取原始图像,其中,所述原始图像中至少包括文本区域;变换模块,用于对所述原始图像进行色彩变换处理,得到至少一个第一图像;裁剪模块,用于对所述至少一个第一图像进行裁剪处理,得到多个第一子图像;贴合模块,用于对所述多个第一子图像进行贴合处理,得到多个目标图像;生成模块,用于基于所述多个目标图像生成样本数据集,其中,所述样本数据集用于对预设模型进行训练,所述预设模型至少用于识别待识别图像中的文本区域。12.根据权利要求11所述的装置,其中,所述变换模块还包括:第一确定模块,用于从多个色彩变换处理方式中随机确定目标处理方式;第一子变换模块,用于基于所述目标处理方式对所述原始图像进行色彩变换,得到所述至少一个第一图像。13.根据权利要求12所述的装置,其中,所述第一子变换模块还包括:第一处理模块,用于在所述目标处理方式为色彩扰动处理方式时,对所述原始图像的颜色通道进行随机增强,得到所述至少一个第一图像,其中,所述颜色通道至少包括:亮度通道、饱和度通道。14.根据权利要求12所述的装置,其中,所述第一子变换模块还包括:第二确定模块,用于在所述目标处理方式为噪声添加方式时,从多个噪声信号中随机确定目标噪声信号;第二处理模块,用于基于所述目标噪声信号对所述原始图像进行噪声叠加处理,得到所述至少一个第一图像。15.根据权利要求12所述的装置,其中,所述第一子变换模块还包括:第三处理模块,用于在所述目标处理方式为灰度处理方式时,将所述原始图像转换为灰度图像,得到所述至少一个第一图像。16.根据权利要求11所述的装置,其中,所述裁剪模块还包括:第三确定模块,用于确定所述至少一个第一图像中的每个第一图像所对应的裁剪数量,其中,所述裁剪数量表征对所述每个第一图像进行裁剪所得到的图像数量;第一子裁剪模块,用于基于所述裁剪数量将所述每个第一图像裁剪为多个图像,得到所述多个第一子图像。17.根据权利要求16所述的装置,其中,所述第一子裁剪模块还包括:检测模块,用于检测所述至少一个第一图像中的目标文本区域;
第二子裁剪模块,用于基于所述裁剪数量以及所述目标文本区域对所述每个第一图像进行裁剪,得到所述多个第一子图像,其中,所述目标文本区域位于所述多个第一子图像中的任意一个图像中。18.一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至10中任一项所述的样本数据集的生成方法。19.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1至10中任一项所述的样本数据集的生成方法。20.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1至10中任一项所述的样本数据集的生成方法。
技术总结
本公开提供了样本数据集的生成方法、装置及电子设备,涉及人工智能技术领域,尤其涉及深度学习、图像处理、计算机视觉技术领域,可应用于光学字符识别场景。具体实现方案为:获取原始图像,其中,原始图像中至少包括文本区域;对原始图像进行色彩变换处理,得到至少一个第一图像;对至少一个第一图像进行裁剪处理,得到多个第一子图像;对多个第一子图像进行贴合处理,得到多个目标图像;基于多个目标图像生成样本数据集,其中,样本数据集用于对预设模型进行训练,预设模型至少用于识别待识别图像中的文本区域。中的文本区域。中的文本区域。
技术研发人员:黄聚 李煜林 王鹏 谢群义 钦夏孟 姚锟
受保护的技术使用者:北京百度网讯科技有限公司
技术研发日:2022.02.17
技术公布日:2022/5/25
转载请注明原文地址:https://tc.8miu.com/read-10187.html