1.本发明属于数据筛选技术领域,具体涉及一种电力场景智能识别样本数据 的自动筛选方法。
背景技术:
2.电网是高效快捷的能源输送通道和优化配置平台,是能源电力可持续发 展的关键环节,在现代能源供应体系中发挥着重要的枢纽作用,关系国家能 源安全。隐患,一直是重大风险事故的“前奏曲”。近年来,电力公司日均 现场作业点和现场作业人员有数量不断增加。人多面广,潜藏风险众多,依靠 传统“人盯人”的监管模式来发现隐患显然不合实际,因此需要在兼顾效率 的同时把风险消灭在“萌芽”。目前电力各业务场景的数据存在大量重复, 或者因为摄像头位置变化造成场景数据不合规,会造成数据分类或者预测错 误问题,常采用人工方式来进行筛选处理,因此在图像识别算法模型的前期 准备阶段能够处理样本数据的准确标记,使得图像识别模型算法能够准确学 习图像中的目标特征。因此须对电力样本数据进行自动化和可视化相关研究, 达到降低从业人员的劳动强度,提高处理效率。
3.针对电力业务场景数据大量重复的客观问题,常采用人工方式来进行筛 选处理重复和不合规的场景数据。但是,人工筛选的方式有以下三方面缺点:
4.(1)、在数据量巨大的情况下,从业人员劳动强度大,筛选成本高;
5.(2)、人工筛选效率低;
6.(3)、筛选具有个人主观性,没有具体量化评价标准。
7.对电力样本数据进行自动筛选和可视化相关研究,可达到降低从业人员 的劳动强度,提高处理效率的目的。因此,需要设计一种筛选方法或筛选系 统,以满足自动筛选的需求。
技术实现要素:
8.本发明所要解决的技术问题便是针对上述现有技术的不足,提供一种电 力场景智能识别样本数据的自动筛选方法,从目标检测、图像分类、图片检 索三个方面着手,结合相关的深度学习算法对数据进行筛选,实现电力场景 数据筛选的自动筛选。
9.本发明所采用的技术方案是:一种电力场景智能识别样本数据的自动筛 选方法,包括如下步骤:
10.步骤10、录入电力场景样本,对录入的电力场景样本中的电力设备进行 标注,构建电力场景筛选样本库;
11.步骤20、基于步骤10中构建的电力场景筛选样本库,分别构建目标检测 算法模型、图像分类算法模型和图像检索算法模型;
12.步骤30、获取待筛选电力场景数据,通过步骤20中构建的图像检索算法 模型对待筛选电力场景数据进行图像检索,筛除不合规的电力场景数据,得 到图像检索合规的电力
场景数据,具体如下:
13.步骤301、获取待筛选电力场景数据;
14.步骤302、将获取的待筛选电力场景数据与图像检索算法模型中的数据进 行比对;
15.步骤303、根据对比结果,得到与图像检索算法模型中的电力场景样本相 似的图像检索合规的电力场景数据,并筛除不合规的电力场景数据;
16.步骤40、获取图像检索合规的电力场景数据,通过步骤20中构建的目标 检测算法模型对图像检索合规的电力场景数据中的电力设备进行定位,并通 过步骤20中构建的图像分类算法模型和目标检测算法模型对图像检索合规的 电力场景数据中定位的电力设备同步进行图像分类和目标检测,筛除不合规 的电力场景数据,得到分类后的电力场景数据,具体如下:
17.步骤401、获取图像检索合规的电力场景数据;
18.步骤402、检索图像检索合规的电力场景数据中电力设备并分别定位;
19.步骤403、将完成电力设备定位的图像检索合规的电力场景数据与图像分 类算法模型和目标检测算法模型中的电力场景样本进行比对,分别得到图像 检索合规的电力场景数据对应的预测类别;
20.步骤404、根据图像分类算法模型和目标检测算法模型得到的预测类别对 图像检索合规的电力场景数据进行类别确认,得到分类后的电力场景数据, 并筛除不合规的电力场景数据。
21.其中一个实施例中,还包括模型训练和测试步骤,具体如下:
22.将电力场景筛选样本库中的电力场景样本划分为训练集和测试集;
23.通过训练集对构建的目标检测算法模型、图像分类算法模型和图像检索 算法模型进行训练;
24.通过测试集对训练后的目标检测算法模型、图像分类算法模型和图像检 索算法模型进行测试,并根据测试结果调整目标检测算法模型、图像分类算 法模型和图像检索算法模型内的电力场景样本及电力场景样本的标注。
25.其中一个实施例中,所述训练集和测试集按比例进行划分且训练集和测 试集的电力场景样本不重合。
26.其中一个实施例中,所述的训练集的比例为60%-80%,所述的测试集的比 例为20%-40%。
27.其中一个实施例中,所述测试集测试目标检测算法模型过程中,针对测 试集中电力场景样本的电力设备标注框的大小和比例对目标检测算法模型中 电力场景样本的初始框进行调整。
28.其中一个实施例中,所述测试集测试目标检测算法模型过程中,如目标 检测算法模型的电力场景样本中存在多个电力设备,结合电力设备的标注结 果,对目标检测算法模型中的电力场景样本非极大值抑制的比例进行调整。
29.其中一个实施例中,步骤30中,步骤301和步骤302之间,还包括初步 筛选步骤,具体如下:
30.设置相似度阈值,根据设置的相似度阈值筛除与不合规的电力场景数据 相似的
电力场景数据或将电力场景数据与图像检索算法模型中的电力场景样 本比对,筛除与图像检索算法模型中的电力场景样本相似度低的电力场景数 据,得到经初步筛选的电力场景数据,进入步骤302。
31.其中一个实施例中,步骤40中,还包括目标检测算法模型电力场景样本 增广步骤,具体如下:
32.基于目标检测算法模型中已标注的电力场景样本对通过目标检测算法模 型进行目标检测的电力场景数据进行标注,筛除无法标注的电力场景数据, 通过可标注的电力场景数据构建已标注数据集;
33.将已标注数据集录入电力场景筛选样本库,得到更新之后的电力场景样 本;
34.获取已录入到电力场景筛选样本库的电力场景样本增补至目标检测算法 模型。
35.其中一个实施例中,步骤404中,分别设置图像分类算法模型和目标检 测算法模型对电力设备的预测类别阈值,并对电力设备的预测类别设置不同 的概率,如图像分类算法模型和目标检测算法模型得到对电力场景数据中的 电力设备的预测概率均超过彼此的阈值时,预测结果可靠,重新加权投票得 到电力设备的最终类别,如图像分类算法模型和目标检测算法模型得到对电 力场景数据中的电力设备的预测概率均未超过彼此的阈值时,预测结果不可 靠,通过人工判别电力设备的最终类别。
36.本发明的有益效果在于:
37.1、从目标检测、图像分类、图片检索三个方面着手,结合相关的深度学 习算法对数据进行筛选,实现电力场景数据筛选的自动筛选;
38.2、图像检索算法模型通过检索筛选图像质量,剔除质量差的数据,目标 检测算法模型配合图像分类算法模型同步进行比对,对电力场景数据进行分 类,三者结合,保证筛选及分类的效果;
39.3、模型训练和测试步骤的设置可对模型进行训练并对训练后的模型进行 测试,保证后续模型运行的准确度;
40.4、初步筛选步骤的设置,可在对电力场景数据进行检索前,筛除一部分 不合规的电力场景数据,以减少后续电力场景数据检索的工作量;
41.5、目标检测算法模型电力场景样本增广步骤的设置可不断更新目标检测 算法模型,通过不断的更新电力场景样本,增加目标检测算法模型的检测精度。
附图说明
42.图1为本发明流程框图;
43.图2为本发明步骤30流程框图;
44.图3为本发明步骤40流程框图;
45.图4为本发明目标检测算法流程示意图;
46.图5为本发明图像分类算法流程示意图;
47.图6为本发明图像检索算法流程示意图;
48.图7为本发明数据分析筛选和可视化数据处理系统框图。
40%。
68.本实施例中,所述测试集测试目标检测算法模型过程中,针对测试集中 电力场景样本的电力设备标注框的大小和比例对目标检测算法模型中电力场 景样本的初始框进行调整。
69.本实施例中,所述测试集测试目标检测算法模型过程中,如目标检测算 法模型的电力场景样本中存在多个电力设备,结合电力设备的标注结果,对 目标检测算法模型中的电力场景样本非极大值抑制的比例进行调整。
70.本实施例中,步骤30中,步骤301和步骤302之间,还包括初步筛选步 骤,具体如下:
71.设置相似度阈值,根据设置的相似度阈值筛除与不合规的电力场景数据 相似的电力场景数据或将电力场景数据与图像检索算法模型中的电力场景样 本比对,筛除与图像检索算法模型中的电力场景样本相似度低的电力场景数 据,得到经初步筛选的电力场景数据,进入步骤302。
72.本实施例中,步骤40中,还包括目标检测算法模型电力场景样本增广步 骤,具体如下:
73.基于目标检测算法模型中已标注的电力场景样本对通过目标检测算法模 型进行目标检测的电力场景数据进行标注,筛除无法标注的电力场景数据, 通过可标注的电力场景数据构建已标注数据集;
74.将已标注数据集录入电力场景筛选样本库,得到更新之后的电力场景样 本;
75.获取已录入到电力场景筛选样本库的电力场景样本增补至目标检测算法 模型。
76.本实施例中,步骤404中,分别设置图像分类算法模型和目标检测算法模 型对电力设备的预测类别阈值,并对电力设备的预测类别设置不同的概率,如 图像分类算法模型和目标检测算法模型得到对电力场景数据中的电力设备的 预测概率均超过彼此的阈值时,预测结果可靠,重新加权投票得到电力设备的 最终类别,如图像分类算法模型和目标检测算法模型得到对电力场景数据中的 电力设备的预测概率均未超过彼此的阈值时,预测结果不可靠,通过人工判别 电力设备的最终类别。
77.本技术中,目标检测算法模型和图像分类算法模型主要实现数据标注的目 标;图像检索算法模型主要实现数据筛选目的,通过上述三个模型,可构建数 据分析筛选和可视化数据处理系统。构建的处理系统框架如图7。
78.本技术中,电力场景筛选样本库中的电力场景样本,需在对电力场景数据 筛选前进行构建。其中的电力场景样本需选择清晰度高、电力设备丰富且无歪 斜的图片,以更好的服务于相关的算法模型,最终提高算法上的性能。其中, 电力场景样本通过对数据的收集,预处理,筛选方法以及需要划分的训练集和 测试集比例的分析,并结合不同模型的训练结果得到。
79.训练集可以对相关的算法模型进行模型训练,使用测试集数据对训练好的 算法模型进行准确率、泛化性能、召回率等性能的评估,为研究人员进行算法 选取和算法改进提供实验依据。因此,电网系统规范操作数据集的收集方法, 训练集和测试集的划分比例和方法也应当进行科学的实验,避免数据的错误划 分影响实验结果。具体来讲,在收集图片数据的过程中需要将来不合规数据与 合规数据进行准确区分。针对合规数据的选取,需
要区分需要局部细节图、检 测抠图错误等因素导致同一场景下的存在不同物体的图片。此外,由于不同的 图片可能对应的是相同的场景,应当进行数据均衡操作,否则会导致分类类别 数目急剧膨胀,而且算法模型难于收敛。因此,在训练检索模型之前,需要完 成相似图片选取与合并两个环节。针对检索模型和标注模型的任务差异性较 大,应当建立检索模型数据库和分类模型数据库,才能实现对相应的算法模型 进行有效训练。针对已收集数据集的划分方法,主要有留出法、交叉验证法、 自助法;在实际的模型训练过程中应该根据数据集图片数据大小以及模型训练 结果对划分方法进行评估,避免因为划分方法选取不当影响实验结果,从而影 响后续研究的顺利开展。
80.本技术的图像检索算法根据查询区域的不同又分为实例检索和图片检索。 实例检索主要是查询与输入图片具有相同物体的其他图片,它主要比较的是不 同的实例对象区域之间的相关性,而不是两张图片之间的相关性。因此,实例 检索还应当在返回的图像中定位目标实例。只要求返回的内容与查询图像在视 觉上相似,无论它们是否共享相同的源。实例检索的首要步骤就是主体检测, 即先定位用户感兴趣的区域,去除掉背景对后续环节的干扰。主体检测基本是 大部分以图搜图产品的公认首要操作,主体检测的算法各有差异,如目标检测 算法、显著性区域预测等算法。为了解放用户,希望算法能够自动定位物体区 域,考虑到显著性区域预测很难处理多个物体出现在视野的情况,应当采用更 加精确的物体检测算法来定位物体位置,并选择置信度最高的物体图片进行后 续的图像检索以及可视化展示。
81.图片检索需要依靠整张图片的特征来查找其他相似的图片。鉴于图像的全 局特征主要包含图片的内容信息,而局部特征包含图像特征区域的几何信息, 这就导致全局特征在召回率方面的性能更佳,而局部特征则侧重在预测方面。 全局特征可以学习不同姿态下的相似性,而局部特征无法学到这种对应关系; 而基于局部特征的几何验证所提供的分数通常能较好地反映图像的相似性,比 全局特征距离更可靠。一个常见的检索系统设置是首先通过全局特征进行搜 索,然后使用局部特征匹配对顶级数据库图像进行重新排序,以达到两者的最 佳效果。因此,针对已收集的电力场景图片信息,应该对实例检索和图片检索 的相关算法进行研究和分析,找到一个在该场景数据上检索性能卓越的目标检 索模型,在数据筛选和可视化数据处理系统构建中发挥重要作用。
82.将图像分类、目标检测和图像检索算法相组合得到可避免或弥补各自技术 的弱点,在提升图像类别的预测准确性的同时也有效的实现了数据筛选。同时 通过目标检测模型和图像分类模型对这些图片中的物体类别预测信息、图片检 索得到的相似图片数据信息等度量信息,可以建立一个可视化的数据筛选系 统,对电力场景中的图片数据进行更加精细的分析和筛选。
83.本技术所述的加权投票是指得到样本库数据的特征权重。即,特征的权重 和类别是相关的,图像类别不同,特征的权重是不一样的。用训练集中的样本 计算出每个类别的特征权重,赋予相应的特征,用加权特征学习svm分类模型。 对于待分类图像,分别采用训练样本得到的权重进行加权,然后选用概率最大 的作为图像的类别。svm为支持向量机。
84.以上所述实施例仅表达了本发明的具体实施方式,其描述较为具体和详 细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本 领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变 形和改进,这些都属于本发明的
保护范围。
转载请注明原文地址:https://tc.8miu.com/read-2654.html