1.本发明涉及数据处理技术领域,尤其涉及一种数据增强方法、装置、设备和存储介质。
背景技术:
2.点云数据(point cloud data)是指在一个三维坐标系统中的一组向量的集合。基于点云数据进行的三维目标检测在自动驾驶、机器人导航等视觉应用中具有巨大的潜力,成为三维计算机视觉领域中活跃的研究课题。在根据点云数据进行三维目标检测方法的训练时,通常会对训练的样本数据进行数据增强,以提高三维目标检测方法的准确性。
3.相关技术中,对训练的样本数据进行数据增强采用随机采样方式,原有的样本数量在数据增强后依然不均衡,导致训练欠拟合或过拟合,数据增强的效果很差。
技术实现要素:
4.本发明提供一种数据增强方法、装置、设备和存储介质,提高了数据增强效果。
5.第一方面,本发明提供一种数据增强方法,包括:
6.获取待增强数据集和样本数据库;所述待增强数据集包括m类对象的点云数据和标签信息,所述样本数据库包括n类对象的点云数据和标签信息,m为正整数,n为大于1的整数,n大于或等于m;
7.根据所述样本数据库确定所述n类对象中的每类对象在多个统计分类下的占比;其中,所述多个统计分类是根据标签信息中的参数确定的;
8.确定向所述待增强数据集中增加的目标对象和所述目标对象的目标个数;
9.根据所述目标对象在所述多个统计分类下的占比从所述样本数据库中获取目标数据;所述目标数据包括所述目标个数的所述目标对象的点云数据和标签信息。
10.可选的,所述多个统计分类包括:
11.基于对象与采集设备之间在所述对象的前进方向上的距离确定的多个统计分类;和/或,基于对象的高度、遮挡程度和截断程度确定的多个统计分类。
12.可选的,所述根据所述目标对象在所述多个统计分类下的占比从所述样本数据库中获取目标数据,包括:
13.根据所述目标对象在所述多个统计分类下的占比确定所述目标对象在每个所述统计分类下的采样比例;
14.根据所述目标个数和所述多个统计分类分别对应的采样比例,获取所述目标对象在每个所述统计分类下的采样个数;
15.根据所述多个统计分类分别对应的采样个数获取所述目标数据。
16.可选的,所述根据所述目标对象在所述多个统计分类下的占比确定所述目标对象在每个所述统计分类下的采样比例,包括:
17.根据所述目标对象在所述多个统计分类下的占比和所述多个统计分类的个数,确
定所述目标对象在每个所述统计分类下的采样比例。
18.可选的,所述根据所述目标对象在所述多个统计分类下的占比和所述多个统计分类的个数,确定所述目标对象在每个所述统计分类下的采样比例,包括:
19.采用公式确定所述目标对象在所述统计分类下的采样比例;
20.其中,α表示所述目标对象在所述统计分类下的采样比例,e表示自然常数,k表示所述目标对象在所述统计分类下的占比,n表示所述多个统计分类的个数。
21.可选的,所述根据所述目标个数和所述多个统计分类分别对应的采样比例,获取所述目标对象在每个所述统计分类下的采样个数,包括:
22.采用公式获取所述目标对象在每个所述统计分类下的采样个数;
23.其中,number表示所述目标对象在所述统计分类下的采样个数,round() 表示四舍五入取整函数,n表示所述目标个数,k表示所述目标对象在所述统计分类下的占比,n表示所述多个统计分类的个数,α表示所述目标对象在所述统计分类下的采样比例。
24.可选的,所述多个统计分类包括i
×
j个统计分类,i表示按照第一规则确定的第一统计分类的个数,j表示按照第二规则确定的第二统计分类的个数,所述i
×
j个统计分类中的每个统计分类表示所述第一统计分类下的所述第二统计分类。
25.可选的,所述样本数据库包括多帧训练样本集,所述待增强数据集为所述多帧训练样本集中的任意一帧训练样本集,所述训练样本集包括至少一类对象的点云数据和标签信息。
26.第二方面,本发明提供一种数据增强装置,包括:
27.获取模块,用于获取待增强数据集和样本数据库;所述待增强数据集包括m类对象的点云数据和标签信息,所述样本数据库包括n类对象的点云数据和标签信息,m为正整数,n为大于1的整数,n大于或等于m;
28.统计分类模块,用于根据所述样本数据库确定所述n类对象中的每类对象在多个统计分类下的占比;其中,所述多个统计分类是根据标签信息中的参数确定的;
29.确定模块,用于确定向所述待增强数据集中增加的目标对象和所述目标对象的目标个数;
30.数据增强模块,用于根据所述目标对象在所述多个统计分类下的占比从所述样本数据库中获取目标数据;所述目标数据包括所述目标个数的所述目标对象的点云数据和标签信息。
31.第三方面,本发明提供一种数据增强设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本发明提供的数据增强方法。
32.第四方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本发明提供的数据增强方法。
33.本发明提供一种数据增强方法、装置、设备和存储介质,通过统计样本数据库中对象在多个统计分类下的占比,根据不同的占比对待增强数据集进行数据增强,使得不同统
计分类下增加的对象分布更加均衡,提高了数据增强效果。
附图说明
34.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
35.图1为本发明实施例提供的数据增强方法的一种流程图;
36.图2为本发明实施例提供的样本数据库的一种对象分布图;
37.图3a为本发明实施例提供的小汽车在多个距离分类下的占比的一种示意图;
38.图3b为本发明实施例提供的行人在多个距离分类下的占比的一种示意图;
39.图4a为本发明实施例提供的小汽车在多个困难程度分类下的占比的一种示意图;
40.图4b为本发明实施例提供的行人在多个困难程度分类下的占比的一种示意图;
41.图5为本发明实施例提供的数据增强方法的另一种流程图;
42.图6为本发明实施例提供的数据增强装置的一种结构示意图;
43.图7为本发明实施例提供的数据增强设备的一种结构示意图。
具体实施方式
44.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
45.可以理解,本技术实施例中的术语“第一”、“第二”、“第三”、“第四”等 (如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
46.本发明提供的数据增强方法、装置、设备和存储介质,应用于对点云数据进行数据增强(data augmentation)的场景。数据增强是一种数据扩充技术,是指利用有限的数据创造尽可能多的利用价值。比如,根据点云数据进行三维目标检测的训练时,人工标注的点云数据的数据量有限,而为了获得好的训练结果通常需要较大数量的点云数据,因此,可以基于已标注的点云数据进行数据增强。
47.相关技术中,通过随机采样的方式进行数据增强。随机采样的比例基本与现有数据的比例保持一致。举例说明。假设,现有数据包括1000个小汽车的样本点云数据,其中,近距离的小汽车为200个,中距离的小汽车为700 个,远距离的小汽车为100个,中距离小汽车的数量最多。如果在1000个小汽车的样本点云数据中随机挑选10个小汽车的数据用于数据增强,那么,在10个小汽车中,中距离小汽车个数依然会最多,例如6个,近距离和远距离的小汽车的个数依然会较少,例如,近距离小汽车为3个,远距离小汽车为1个,随机采样的比例与现有数据的比例基本相同。这样,通过随机采样的方式进行数据增强,原有样本数量少的范围在随机采样后样本的数量依然较少,在训练时模型容易欠拟合,反之,原有样本数量多的范围在随机采样后样本的数量会更多,在训练时模型容易过拟合,导致检测精度较低,数据增强的效果很差。
48.针对上述技术问题,本发明提供一种数据增强方法,基于现有数据中不同类型的
对象在不同统计分类下的占比进行数据增强,使得不同统计分类下增加的对象的数据量更加均衡。比如,还以上述1000个小汽车的样本点云数据为例,中距离小汽车的占比最多,近距离和远距离的小汽车的占比较少。那么,进行数据增强时,可以降低中距离小汽车的数据增强比例,提高近距离和远距离的小汽车的数据增强比例。假设,挑选10个小汽车的数据用于数据增强,通过本发明提供的数据增强方法,在10个小汽车中,近距离和远距离的小汽车可以均为3个,中距离的小汽车可以为4个。可见,本发明提供的数据增强方法,使得增强的数据中不同统计分类下的数据更加均衡,提高了数据增强效果。
49.为了方便理解,首先对点云数据和标签信息进行说明。
50.点云是指目标表面特性的海量点的集合。点云数据可以通过激光雷达等探测设备采集获得。可选的,激光雷达可以安装在车辆、无人机等设备上。
51.可选的,点云数据可以包括点云坐标x(前后距离)、y(左右偏移)、 z(上下偏移)和反射强度(intensity)。
52.点云数据可以具有标签信息。点云数据和标签信息可以存储为kitti 数据集格式,例如存储为bin文件。
53.示例性的,表1示出了kitti数据集格式的标签信息。如表1所示,标签信息可以包括下列参数:物体类别(type)、截断状态(truncated)、遮挡状态(occluded)、观察角度(alpha)、二维尺寸信息(bbox)、三维尺寸信息(dimensions)、三维位置信息(location)、三维角度(rotation_y) 和检测置信度(score)。其中,kitti数据集格式具有16位,每个参数对应的位数如表1所示。例如,参数type占用1位,参数bbox占用4位。其中,参数type指示了对象所属的类别,例如,小汽车(car)、货车(van)、卡车(truck)、行人(pedetrain)、座椅(person_sitting)、自行车(cyclist)、有轨电车(tram)、其他(misc)或者未标注(dontcare)。例如,当目标物体距离激光雷达太远时采集的点云数据可以标记为dontcare。
54.表1标签信息
[0055][0056]
下面以具体的实施例对本发明的技术方案进行详细说明。
[0057]
图1为本发明实施例提供的数据增强方法的一种流程图。本实施例提供的数据增强方法,执行主体可以为数据增强装置或数据增强设备。如图1所示,本实施例提供的数据增强方法,可以包括:
[0058]
s101、获取待增强数据集和样本数据库。其中,待增强数据集包括m 类对象的点云数据和标签信息,样本数据库包括n类对象的点云数据和标签信息,m为正整数,n为大于1的整数,n大于或等于m。
[0059]
其中,本实施例对m和n的取值不做限定,对待增强数据集和样本数据库中每类对象的数量不做限定。
[0060]
下面通过示例对样本数据库和待增强数据集进行示例性说明。
[0061]
假设,n=5,m=2。n类对象包括小汽车、货车、卡车、行人和自行车。 m类对象包括小汽车和行人。样本数据库可以包括1000个小汽车、200个货车、100个卡车、600个行人和200个自行车的点云数据和标签信息。待增强数据集可以包括10个小汽车和3个行人的点云数据和标签信息。
[0062]
可选的,样本数据库可以包括待增强数据集。
[0063]
可选的,样本数据库包括多帧训练样本集,待增强数据集为多帧训练样本集中的
任意一帧训练样本集,训练样本集包括至少一类对象的点云数据和标签信息。
[0064]
可选的,获取训练样本集、待增强数据集和样本数据库的一种实现方式可以包括:
[0065]
通过激光雷达采集一帧点云数据,获取该帧点云数据的标签信息。
[0066]
确定至少一个目标框,并计算每个目标框内的点数。
[0067]
对于每个目标框,若目标框内的点数小于预设阈值,则删除该目标框。
[0068]
对于每个有效目标框,将有效目标框内的点云数据和标签信息存储为对象的点云数据和标签信息。其中,在至少一个目标框中删除目标框内点数小于预设阈值后剩余的目标框均为有效目标框。
[0069]
将所有有效目标框内的点云数据和标签信息确定为一帧训练样本集。
[0070]
重复执行上述过程,获取多帧训练样本集,将多帧训练样本集中所有有效目标框内的点云数据和标签信息组成样本数据库。
[0071]
举例说明。假设,第一帧训练样本集包括3个有效目标框,对应了2个小汽车和1个行人,第一帧训练样本集包括2个小汽车、1个行人的点云数据和标签信息。第二帧训练样本集包括10个有效目标框,对应了5个小汽车、3个行人和2个货车,第二帧训练样本集包括5个小汽车、3个行人和2 个货车的点云数据和标签信息。以此类推。假设,共计获取了3721帧训练样本集,那么,样本数据库包括3721帧训练样本集中所有对象的点云数据和标签信息。示例性的,图2为本发明实施例提供的样本数据库的一种对象分布图。如图2所示,样本数据库包括了2207个行人、14357个小汽车、734 个自行车、1297个货车、488个卡车、224个有轨电车、56个座椅和337个其他对象的点云数据和标签信息。此时,n=8。其中,待增强数据集可以为 3721帧训练样本集中的任意一帧,例如,为第二帧训练样本集。此时,m=3。
[0072]
s102、根据样本数据库确定n类对象中的每类对象在多个统计分类下的占比。
[0073]
其中,多个统计分类是根据标签信息中的参数确定的。本实施例对多个统计分类的个数和具体统计分类规则不做限定。
[0074]
可选的,在一种实现方式中,多个统计分类可以包括基于对象与采集设备之间在对象的前进方向上的距离确定的多个统计分类。
[0075]
在该实现方式中,基于对象的距离将样本数据库中该类对象的个数进行分类划分。
[0076]
举例说明。假设,统计分类的个数为3个,分别为:距离《20米、20米≤距离≤40米、距离》40米。其中,对象与采集设备之间在对象的前进方向上的距离可以根据标签信息中的三维位置信息确定。可选的,对象的前进方向可以为相机坐标系下的x轴方向。
[0077]
针对样本数据库中的对象“小汽车”,占比结果参见图3a。如图3a所示,样本数据库中包括14357个小汽车的点云数据和标签信息,其中,距离 (用x表示)《20米的小汽车有4580个,占比为31.9%;20米≤x≤40米的小汽车有6176个,占比为43.02%;x》40米的小汽车有3601个,占比为 25.08%。
[0078]
针对样本数据库中的对象“行人”,占比结果参见图3b。如图3b所示,样本数据库中包括2207个行人的点云数据和标签信息,其中,距离(用x 表示)《20米的行人有1359个,占比为61.58%;20米≤x≤40米的行人有 739个,占比为33.48%;x》40米的行人有109个,占比为4.94%。
[0079]
可见,不同距离范围内的对象分布非常不均衡。
[0080]
可选的,在另一种实现方式中,多个统计分类可以包括基于对象的高度、遮挡程度和截断程度确定的多个统计分类。
[0081]
在该实现方式中,基于对象的高度、遮挡程度和截断程度,将样本数据库中该类对象的个数进行分类划分,表征了对象采集的困难程度。通常,激光雷达等探测设备采集点云数据时,如果对象的高度越高、遮挡越小、截断越少,该对象对应的点云数据越多,表面点云越完整,采集点云数据的困难程度相对越简单;相反的,对象的高度越低、遮挡越大、截断越多,则采集点云数据的困难程度越困难。
[0082]
举例说明。假设,统计分类的个数为3个,分别表示为简单、中等和困难,分类规则参见表2。其中,对象的高度、遮挡程度和截断程度可以基于标签信息中的参数二维尺寸信息、截断状态和遮挡状态确定。可选的,对象的高度的单位可以为像素。例如,对象的高度可以为二维尺寸信息中目标框上、下像素坐标的差值。
[0083]
表2困难程度划分
[0084]
困难程度对象的高度遮挡程度截断程度简单》40《=0《=0.15中等》25《=1《=0.3困难》25《=2《=0.5
[0085]
针对样本数据库中的对象“小汽车”,占比结果参见图4a。如图4a所示,样本数据库中包括14357个小汽车的点云数据和标签信息,其中,简单分类的小汽车的占比为29.3%,中等分类的小汽车的占比为44.86%,困难分类的小汽车的占比为25.84%。
[0086]
针对样本数据库中的对象“行人”,占比结果参见图4b。如图4b所示,样本数据库中包括2207个行人的点云数据和标签信息,其中,简单分类的行人的占比为65.06%,中等分类的行人的占比为29.09%,困难分类的行人的占比为5.85%。
[0087]
可见,不同困难程度对应的对象分布非常不均衡。
[0088]
可选的,在又一种实现方式中,多个统计分类可以包括基于对象与采集设备之间在对象的前进方向上的距离以及基于对象的高度、遮挡程度和截断程度确定的多个统计分类。
[0089]
在该实现方式中,综合考虑了对象的距离和对象采集的困难程度,多个统计分类更加细致,从而可以进一步提高数据增强效果。
[0090]
可选的,多个统计分类可以包括i
×
j个统计分类,i表示按照第一规则确定的第一统计分类的个数,j表示按照第二规则确定的第二统计分类的个数,i
×
j个统计分类中的每个统计分类表示第一统计分类下的第二统计分类。
[0091]
其中,本实施例对i和j的具体取值不做限定。
[0092]
举例说明。假设,第一规则为基于对象与采集设备之间在对象的前进方向上的距离进行分类,第二规则为基于对象的高度、遮挡程度和截断程度进行分类,i=4,j=3。4个第一统计分类分别为:距离《10米、10米≤距离《20 米、20米≤距离≤40米、距离》40米。3个第二统计分类参见表2。
[0093]
那么,多个统计分类可以包括4
×
3=12个,具体包括:距离《10米内的简单分类、距离《10米内的中等分类、距离《10米内的困难分类;10米≤距离《20米内的简单分类、10米≤距离《20米内的中等分类、10米≤距离《20 米内的困难分类;20米≤距离≤40米内的简单分
类、20米≤距离≤40米内的中等分类、20米≤距离≤40米内的困难分类;距离》40米的简单分类、距离》40米内的中等分类、距离》40米内的困难分类。
[0094]
s103、确定向待增强数据集中增加的目标对象和目标对象的目标个数。
[0095]
其中,本实施例对目标对象的类型和目标个数不做限定。
[0096]
可选的,在一种实现方式中,目标对象可以与待增强数据集中包括的对象的类型相同。例如,以上述第二帧训练样本集为待增强数据集为例,目标对象可以包括第二帧训练样本集中的对象,即,目标对象包括小汽车、行人和货车。
[0097]
在该实现方式中,根据待增强数据集确定目标对象,有效的增加了待增强数据集中各种对象的数据量,提高了数据增强效果。
[0098]
可选的,在另一种实现方式中,目标对象可以为待增强数据集中某一种类型的对象。在该实现方式中,可以针对待增强数据集中特定类型的对象进行数据增强,提高了数据增强效果。
[0099]
可选的,在又一种实现方式中,目标对象的种类可以大于待增强数据集中对象的种类。在该实现方式中,可以提高待增强数据集的复杂性,扩展了应用场景。
[0100]
可选的,若目标对象包括多种类型,不同目标对象的目标个数可以相同,也可以不同。例如,以上述第二帧训练样本集为待增强数据集为例,小汽车的目标个数可以为15个,行人的目标个数可以为10,货车的目标个数可以为5个。
[0101]
s104、根据目标对象在多个统计分类下的占比从样本数据库中获取目标数据。目标数据包括目标个数的目标对象的点云数据和标签信息。
[0102]
具体的,目标对象在多个统计分类下的占比通常是不均衡的,根据目标对象在多个统计分类下的占比从样本数据库中获取目标数据,考虑了样本数据库中对象分布不均衡对数据增强效果的影响,使得数据增强过程中增加的对象的分布尽量均衡,提升了数据增强的效果。
[0103]
可选的,若目标对象为多个,每个目标对象使用的统计分类可以相同,也可以不同。
[0104]
举例说明。假设,以上述第二帧训练样本集为待增强数据集为例,目标对象包括小汽车、行人和货车共计三类,小汽车的目标个数可以为15个,行人的目标个数可以为10,货车的目标个数可以为5个。
[0105]
在一个示例中,小汽车、行人和货车均使用基于对象与采集设备在对象的前进方向上之间的距离确定的多个统计分类。对于小汽车,根据样本数据库中小汽车在不同距离分类的占比分别确定不同距离分类对应的需要增加的小汽车的个数。相似的,对于行人,根据样本数据库中行人在不同距离分类的占比分别确定不同距离分类对应的需要增加的行人的个数。对于货车,根据样本数据库中货车在不同距离分类的占比分别确定不同距离分类对应的需要增加的货车的个数。
[0106]
在另一个示例中,小汽车和行人使用基于对象与采集设备之间在对象的前进方向上的距离确定的多个统计分类,货车使用基于对象的高度、遮挡程度和截断程度确定的多个统计分类。对于小汽车,根据样本数据库中小汽车在不同距离分类的占比分别确定不同距离分类对应的需要增加的小汽车的个数。对于行人,根据样本数据库中行人在不同距离分类的占比分别确定不同距离分类对应的需要增加的行人的个数。对于货车,根据样本数
据库中货车在不同困难程度分类的占比分别确定不同困难程度分类对应的需要增加的货车的个数。
[0107]
可见,本实施例提供了一种数据增强方法,统计了样本数据库中对象在多个统计分类下的占比,根据不同的占比对待增强数据集进行数据增强,使得不同统计分类下增加的对象的数据量更加均衡,提高了数据增强效果。
[0108]
在上述实施例的基础上,本发明另一个实施例提供了数据增强方法的一种实现方式,具体提供了s104中根据目标对象在多个统计分类下的占比从样本数据库中获取目标数据的实现方式。
[0109]
图5为本发明实施例提供的数据增强方法的另一种流程图。如图5所示, s104中,根据目标对象在多个统计分类下的占比从样本数据库中获取目标数据,可以包括:
[0110]
s501、根据目标对象在多个统计分类下的占比确定目标对象在每个统计分类下的采样比例。
[0111]
s502、根据目标个数和多个统计分类分别对应的采样比例,获取目标对象在每个统计分类下的采样个数。
[0112]
s503、根据多个统计分类分别对应的采样个数获取目标数据。
[0113]
在本实施例中,根据目标对象在多个统计分类下的占比确定目标对象在每个统计分类下的采样比例。采样比例和占比相关,占比不同时,采样比例不同。因此,由于考虑了样本数据库中对象分布不均衡对数据增强效果的影响,根据目标对象在多个统计分类下不同的采样比例进行数据增强,使得数据增强过程中增加的对象的分布尽量均衡,提升了数据增强的效果。
[0114]
可选的,s501中,根据目标对象在多个统计分类下的占比确定目标对象在每个统计分类下的采样比例,可以包括:
[0115]
根据目标对象在多个统计分类下的占比和多个统计分类的个数,确定目标对象在每个统计分类下的采样比例。
[0116]
通过统计分类的个数和不同统计分类下的占比共同确定不同统计分类下的采样比例,提高了确定采样比例的合理性。例如,统计分类的个数越多,说明统计分类越细致,不同统计分类下的采样比例可以更加精细化。
[0117]
可选的,根据目标对象在多个统计分类下的占比和多个统计分类的个数,确定目标对象在每个统计分类下的采样比例,可以包括:
[0118]
采用公式确定目标对象在统计分类下的采样比例。
[0119]
其中,α表示目标对象在统计分类下的采样比例,e表示自然常数,k表示目标对象在统计分类下的占比,n表示多个统计分类的个数。
[0120]
在该实现方式中,通过每个统计分类所占比例的平均值(1/n)和不同统计分类下的占比k确定不同统计分类下的采样比例,提高了确定采样比例的合理性。
[0121]
可选的,根据目标个数和多个统计分类分别对应的采样比例,获取目标对象在每个统计分类下的采样个数,可以包括:
[0122]
采用公式获取目标对象在每个统计分类下的采样个数。
[0123]
其中,number表示目标对象在统计分类下的采样个数,round()表示四舍五入取整函数,n表示目标个数,k表示目标对象在统计分类下的占比,n表示多个统计分类的个数,α表示目标对象在统计分类下的采样比例。
[0124]
可选的,确定目标对象在多个统计分类下的采样个数,可以针对每个统计分类分别采用上述公式确定采样个数。
[0125]
举例说明。
[0126]
对于第1个统计分类,确定采样个数为:
[0127][0128]
对于第2个统计分类,确定采样个数为:
[0129][0130]
以此类推。
[0131]
对于第n个统计分类,确定采样个数为:
[0132][0133]
可选的,确定目标对象在多个统计分类下的采样个数,可以针对其中n-1 个统计分类中的每个统计分类分别采用上述公式确定采样个数,然后根据目标个数n和n-1个统计分类的采样个数确定最后一个统计分类的采样个数。
[0134]
举例说明。
[0135]
对于第1个统计分类,确定采样个数为:
[0136][0137]
对于第2个统计分类,确定采样个数为:
[0138][0139]
以此类推。
[0140]
对于第n-1个统计分类,确定采样个数为:
[0141][0142]
对于第n个统计分类,确定采样个数为:
[0143]
numbern=n-number
1-number2‑…‑
number
n-1
[0144]
图6为本发明实施例提供的数据增强装置的一种结构示意图。本实施例提供的数据增强装置,用于执行本发明提供的数据增强方法。如图6所示,本实施例提供的数据增强装置,可以包括:
[0145]
获取模块61,用于获取待增强数据集和样本数据库。待增强数据集包括 m类对象的点云数据和标签信息,样本数据库包括n类对象的点云数据和标签信息,m为正整数,n为大于1的整数,n大于或等于m。
[0146]
统计分类模块62,用于根据样本数据库确定n类对象中的每类对象在多个统计分
类下的占比。其中,多个统计分类是根据标签信息中的参数确定的。
[0147]
确定模块63,用于确定向待增强数据集中增加的目标对象和目标对象的目标个数。
[0148]
数据增强模块64,用于根据目标对象在多个统计分类下的占比从样本数据库中获取目标数据。目标数据包括目标个数的目标对象的点云数据和标签信息。
[0149]
可选的,所述多个统计分类包括:
[0150]
基于对象与采集设备之间在对象的前进方向上的距离确定的多个统计分类;和/或,基于对象的高度、遮挡程度和截断程度确定的多个统计分类。
[0151]
可选的,所述数据增强模块64用于:
[0152]
根据所述目标对象在所述多个统计分类下的占比确定所述目标对象在每个所述统计分类下的采样比例;
[0153]
根据所述目标个数和所述多个统计分类分别对应的采样比例,获取所述目标对象在每个所述统计分类下的采样个数;
[0154]
根据所述多个统计分类分别对应的采样个数获取所述目标数据。
[0155]
可选的,所述数据增强模块64用于:
[0156]
根据所述目标对象在所述多个统计分类下的占比和所述多个统计分类的个数,确定所述目标对象在每个所述统计分类下的采样比例。
[0157]
可选的,所述数据增强模块64用于:
[0158]
采用公式确定所述目标对象在所述统计分类下的采样比例;
[0159]
其中,α表示所述目标对象在所述统计分类下的采样比例,e表示自然常数,k表示所述目标对象在所述统计分类下的占比,n表示所述多个统计分类的个数。
[0160]
可选的,所述数据增强模块64用于:
[0161]
采用公式获取所述目标对象在每个所述统计分类下的采样个数;
[0162]
其中,number表示所述目标对象在所述统计分类下的采样个数,round() 表示四舍五入取整函数,n表示所述目标个数,k表示所述目标对象在所述统计分类下的占比,n表示所述多个统计分类的个数,α表示所述目标对象在所述统计分类下的采样比例。
[0163]
可选的,所述多个统计分类包括i
×
j个统计分类,i表示按照第一规则确定的第一统计分类的个数,j表示按照第二规则确定的第二统计分类的个数,所述i
×
j个统计分类中的每个统计分类表示所述第一统计分类下的所述第二统计分类。
[0164]
可选的,所述样本数据库包括多帧训练样本集,所述待增强数据集为所述多帧训练样本集中的任意一帧训练样本集,所述训练样本集包括至少一类对象的点云数据和标签信息。
[0165]
图7为本发明实施例提供的数据增强设备的一种结构示意图。如图7所示,本实施例提供的数据增强设备,可以包括系统总线701连接的处理器 702、存储器704和通信接口703。其中,处理器702用于提供计算和控制能力。存储器704包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质
中的操作系统和计算机程序的运行提供环境。该检测设备的通信接口703用于与其他设备实现通信。该计算机程序被处理器702执行时以实现本发明提供的数据增强方法。
[0166]
本领域技术人员可以理解,图7中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术提供的数据增强设备的限定,具体的检测设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0167]
应当清楚的是,本技术实施例中处理器执行计算机程序的过程,与上述方法中各个步骤的执行过程一致,具体可参见上文中的描述。
[0168]
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时可以实现本技术上述方法实施例提供的数据增强方法。
[0169]
应当清楚的是,本技术实施例中处理器执行计算机程序的过程,与上述方法中各个步骤的执行过程一致,具体可参见上文中的描述。
[0170]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/ 或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom (prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom) 或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram (ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram (sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
[0171]
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0172]
以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术专利的保护范围应以所附权利要求为准。
转载请注明原文地址:https://tc.8miu.com/read-3806.html