1.本发明涉及数据处理技术领域,尤其涉及一种底层数据清洗方法、装置、移动终端和存储介质。
背景技术:
2.现阶段,我国变电站正处于智能变电站的发展阶段,随着电力信息系统的规模和复杂程度日益增加,继电保护系统抵御网络攻击的难度也随之增大。继电保护系统依赖于底层数据而运行,可靠的底层数据基础是实现智能化继电保护的关键。而底层数据来源广泛,动态无控制性,数据类型多,使数据淸洗成为提高继电保护系统保护准确性的必要步骤,只有提高清洗数据保证数据的质量,才能保证继电保护系统的准确保护。
3.然而,传统的继电保护系统由于对底层数据的清洗效率不高,最终导致继电保护系统的保护准确性不高。
技术实现要素:
4.本发明实施例提供一种底层数据清洗方法、装置、移动终端和存储介质,提高了底层数据的清洗效率,进一步提高了继电保护系统的保护的准确性。
5.本技术实施例的第一方面提供了一种底层数据清洗方法,包括:
6.获取待清洗底层数据后,在mapreduce模型中通过k-means聚类算法计算待清洗底层数据中多个对象与多个初始聚类中心之间的欧式距离;其中,初始聚类中心通过k-means聚类算法计算而得;
7.通过mapreduce模型根据欧式距离进行分类排序,并根据排序结果迭代计算得到最终聚合聚类中心;
8.根据最终聚合聚类中心,确定待清洗底层数据的最终类别,并根据最终类别进行待清洗底层数据的异常值处理,得到异常值处理结果;
9.根据异常值处理结果进行完整性修复操作后,完成对待清洗底层数据的数据清洗。
10.在第一方面的一种可能的实现方式中,初始聚类中心通过k-means聚类算法计算而得,具体为:
11.在mapreduce模型中根据最大最小距离算法计算得到多个聚类集合;
12.根据多个聚类集合和k-means聚类算法,计算得到多个初始聚类中心。
13.在第一方面的一种可能的实现方式中,还包括:
14.mapreduce模型将待清洗底层数据分割成固定大小的多个片段,将多个片段存储成键值对,并根据键值对和多个对象进行分布式计算,得到分布式计算结果。
15.在第一方面的一种可能的实现方式中,通过mapreduce模型根据欧式距离进行分类排序,根据排序结果迭代计算得到最终聚合聚类中心,具体为:
16.根据排序结果得到新聚类中心,计算新聚类中心和初始聚类中心之间的变化值,
当变化值小于预设数值时,将新聚类中心作为最终聚合聚类中心。
17.在第一方面的一种可能的实现方式中,获取待清洗底层数据,具体为:
18.获取初始底层数据,对初始底层数据进行降维处理后,生成待清洗底层数据并获取;其中,获取初始底层数据,具体为:
19.基于hadoop技术采集初始底层数据后并获取;其中,初始底层数据包括:四遥数据、压板数据、定值数据、告警数据、故障信号和动作事件数据。
20.在第一方面的一种可能的实现方式中,还包括:
21.完成对待清洗底层数据的数据清洗后,生成第一清洗结果;
22.获取第一清洗结果的数据性质,根据数据性质进行数据转换操作,生成第一转换结果,并将第一转换结果存储于分布式文件系统中。
23.本技术实施例的第二方面提供了一种底层数据清洗装置,包括:第一计算模块、第二计算模块和清洗模块;
24.其中,第一计算模块用于获取待清洗底层数据后,在mapreduce模型中通过k-means聚类算法计算待清洗底层数据中多个对象与多个初始聚类中心之间的欧式距离;其中,初始聚类中心通过k-means聚类算法计算而得;
25.第二计算模块用于通过mapreduce模型根据欧式距离进行分类排序,并根据排序结果迭代计算得到最终聚合聚类中心;
26.清洗模块用于根据最终聚合聚类中心,确定待清洗底层数据的最终类别,并根据最终类别进行待清洗底层数据的异常值处理,得到异常值处理结果;根据异常值处理结果进行完整性修复操作后,完成对待清洗底层数据的数据清洗。
27.在第二方面的一种可能的实现方式中,初始聚类中心通过k-means聚类算法计算而得,具体为:
28.在mapreduce模型中根据最大最小距离算法计算得到多个聚类集合;
29.根据多个聚类集合和k-means聚类算法,计算得到多个初始聚类中心。
30.本技术实施例的第三方面提供了一种移动终端,包括处理器和存储器,存储器存储有计算机可读程序代码,处理器执行计算机可读程序代码时实现上述的一种底层数据清洗方法的步骤。
31.本技术实施例的第四方面提供了一种存储介质,存储介质存储计算机可读程序代码,当计算机可读程序代码被执行时实现上述的一种底层数据清洗方法的步骤。
32.相比于现有技术,本发明实施例提供的一种底层数据清洗方法、装置、移动终端和存储介质,所述方法包括:获取待清洗底层数据后,在mapreduce模型中通过k-means聚类算法计算待清洗底层数据中多个对象与多个初始聚类中心之间的欧式距离;其中,初始聚类中心通过k-means聚类算法计算而得;通过mapreduce模型根据欧式距离进行分类排序,并根据排序结果迭代计算得到最终聚合聚类中心;根据最终聚合聚类中心,确定待清洗底层数据的最终类别,并根据最终类别进行待清洗底层数据的异常值处理,得到异常值处理结果;根据异常值处理结果进行完整性修复操作后,完成对待清洗底层数据的数据清洗。
33.其有益效果在于:本发明实施例通过先通过mapreduce模型计算得到待清洗底层数据的最终类别,并根据最终类别进行异常值处理,能够有效提高异常值处理的效率;并根据快速得到的异常值处理结果进行完整性修复后,完成对待清洗底层数据的数据清洗,从
而提高待清洗底层数据的数据清洗效率,从而进一步提高继电保护系统的保护准确性。
34.同时,本发明实施例根据最终类别进行异常值处理,能够有提高异常值处理的准确性,提高异常值处理结果的精度;能够改进底层数据的质量,为其他应用提供高质量的底层数据基础,从而提高数据挖掘或数据流挖掘的精度和性能。其中,初始聚类中心通过k-means聚类算法计算而得,在mapreduce框架下,k-means聚类算法的使用范围由单机扩展到云计算平台,在面对海量数据,极大地减少了k-means聚类算法的运行时间,显著地提高了运行效率。
35.再者,本发明实施例基于hadoop技术实现数据采集与存储,以便于数字孪生采集层在进行数据清洗和转换的过程中有效获取数据,从而进一步提高数据清洗的效率及准确性。
36.此外,本发明实施例供一种符合iec-61850标准的“采集器”接口进行原始数据层信号与数据采集,接口标准化能够优化变电站的自动化系统,提高整个系统的安全和可靠性,并最终实现站内信息的共享和系统集成。
附图说明
37.图1是本发明一实施例提供的一种底层数据清洗方法的流程示意图;
38.图2是本发明一实施例提供的一种底层数据清洗装置的结构示意图。
具体实施方式
39.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
40.参照图1,是本发明一实施例提供的一种底层数据清洗方法的流程示意图,包括s101-s104:
41.s101:获取待清洗底层数据后,在mapreduce模型中通过k-means聚类算法计算待清洗底层数据中多个对象与多个初始聚类中心之间的欧式距离。
42.其中,所述初始聚类中心通过k-means聚类算法计算而得。
43.在本实施例中,所述初始聚类中心通过k-means聚类算法计算而得,具体为:
44.在所述mapreduce模型中根据最大最小距离算法计算得到多个聚类集合;
45.根据多个所述聚类集合和所述k-means聚类算法,计算得到多个所述初始聚类中心。
46.在一具体实施例中,还包括:
47.所述mapreduce模型将所述待清洗底层数据分割成固定大小的多个片段,将多个所述片段存储成键值对,并根据所述键值对和多个所述对象进行分布式计算,得到分布式计算结果。
48.在本实施例中,所述获取待清洗底层数据,具体为:
49.获取初始底层数据,对所述初始底层数据进行降维处理后,生成所述待清洗底层数据并获取;其中,所述获取初始底层数据,具体为:
50.基于hadoop技术采集所述初始底层数据后并获取;其中,所述初始底层数据包括:四遥数据、压板数据、定值数据、告警数据、故障信号和动作事件数据。
51.进一步地,所述对所述初始底层数据进行降维处理后,生成所述待清洗底层数据并获取,具体为:
52.通过logsf特征选择算法对初始底层数据进行降维,剔除冗余特征后,得到生成待清洗底层数据。
53.进一步地,对待清洗底层数据进行数据清洗和数据转换后,将结果写回到分布式文件系统hdfs(hadoop distributed file system)中,具体为:完成对所述待清洗底层数据的数据清洗后,生成第一清洗结果;获取所述第一清洗结果的数据性质,根据所述数据性质进行数据转换操作,生成第一转换结果,并将所述第一转换结果存储于分布式文件系统中。
54.进一步地,分布式文件系统hdfs将节点分为3类角色,分别是:主服务器节点(namenode)、数据块服务器节点(datanode)与客户端(client)。主服务器节点是hdfs系统的管理节点,用于保存系统的元数据,起到管理作用。数据块服务器节点负责具体的海量信息存储工作,所有文件被调整为64mb大小的数据块来进行多份保存。客户端提供给应用程序的访问接口,可以与数据块服务器节点进行数据之间的交互。
55.logsf算法的主要思想是:在计算其损失函数的过程中,应用能量函数及最近邻分类思想将任意一组特征数据集中的复杂且非线性的问题转化为简单的易于理解的局部线性问题。
56.假定训练样本集r为:
57.r={m,n}={mi,ni}xi=1,mi={m
i1
,m
i2
,....,m
id
}∈rd;
58.其中,mi为数据集中的第i个训练样本,ni为与训练样本对应的一个标记,xi为训练样本集中的样本数量,m为训练样本集,n为训练样本对应的标记集合。
59.则样本mi的损失函数为:
60.l(β,mi)=log(1 exp(-β
t
f1));
61.其中,f1=|m
i-m
′i|-|m
i-n
′i|,m
′i是与样本mi相离最近但是标记不同的样本,n
′i是与样本mi相离最近但是标记相同的样本,β是特征权重,fi是中间变量。通过将损失函数最小化来获得理想权重β
′
,便可以使样本mi与最近样本n
′i之间的距离小于样本mi与m
′i之间的距离。
62.在一具体实施例中,所述获取初始底层数据,具体为:
63.基于hadoop技术从hdfs数据仓库中采集所述初始底层数据后并获取;其中,所述初始底层数据包括:四遥数据、压板数据、定值数据、告警数据、故障信号和动作事件数据。采集所述初始底层数据后存储至hadoop的存储系统中。其中,初始底层数据位于原始数据层,要对将原始数据层中的数据传输至数字孪生层中,以使数据孪生层进行数据清洗等一系列数据处理操作,所以定义一个符合iec-61850标准的“采集器”接口,原始数据层通过采集器实现与数字孪生层之间的数据传输与通信,即采集器用于将原始数据层重点初始底层数据传输至数据孪生层中。
64.进一步地,采集器接口还用于将电参量信号上传到数字孪生采集层中。
65.在一具体实施例中,符合iec-61850标准的采集器包括4个功能模块:同步信号模
块、数据采集模块、数字信号处理模块和组帧编码通信模块。
66.同步信号模块:通过fpga正确识别和追踪外部输入的lpps秒脉冲信号,然后产生信号,若遇异常信号作异常处理后向一次设备发送同步采样信号。
67.数据采集模块:在采集器向各路a/d转换器发送同步采样控制信号后,采集器中的fpga将接收数字量或模拟小信号量数据。
68.数字信号处理模块:数据采集器中的dsp对fpga采集到的数据进行滤波和fft快速傅里叶变换,得出电流、电压和相位等采样数据值,以供面板显示,而powepc会对fpga采集到的原始信号进行相位误差进行修正。
69.组帧编码通信模块:在powerpc中,将各路信号采样点校准后,数据根据iec61850标准进行组帧编码,并发送到采集层做深度处理。
70.在一具体实施例中,获取所述第一清洗结果的数据性质,根据所述数据性质进行数据转换操作,生成第一转换结果,并将所述第一转换结果存储于分布式文件系统中,具体为:
71.数据转换的目的是将数据变换成为统一适合分析的形式或格式,通过数据规范化操作实现。规范化是指将属性数据按比例缩放,使之落入一个小的特定区间。本实例采用最大最小规范化和z-score标准化对第一清洗结果进行数据转化,得到第一转换结果。
72.最大最小规范化计算公式为:
[0073][0074]
其中,maxa为属性a的最大值,mina分别为属性a的最小值。v是属性a中的值,v’是v映射到区间[new_mina,new_maxa]中的值,new_maxa为属性a的最新最大值new_mina为属性a的最新最小值。
[0075]
通过最大最小规范化计算公式可以将属性a上的值映射到[new_maxa,new_mina]范围中的v’。最大最小归一化的不足是当有新数据加入时,可能导致max和min的变化,需要z-score规范化计算公式重新定义。
[0076]
z-score规范化计算公式为:
[0077][0078]
其中,为属性a的均值,δa为属性a的标准差,属性a的值v经过z-score规范化后得到v’。
[0079]
在属性a的最大值和最小值未知的情况下,z-score规范化是有效的。
[0080]
进一步地,获得所述待清洗底层数据意味着已经对所述初始底层数据完成预处理(即降维处理),于是对所述待清洗底层数据采用距离优先清洗规则,给定待清洗底层数据与真实数据的误差,判断δv是否满足待清洗的最小距离,若满足,则进行s102-s103后,将清洗结果记录至hdfs中;若不满足,则将待清洗底层数据直接写回到hdfs中进行存储。
[0081]
s102:通过mapreduce模型根据欧式距离进行分类排序,并根据排序结果迭代计算得到最终聚合聚类中心。
[0082]
在本实施例中,所述通过所述mapreduce模型根据所述欧式距离进行分类排序,根
据排序结果迭代计算得到最终聚合聚类中心,具体为:
[0083]
根据所述排序结果得到新聚类中心,计算所述新聚类中心和所述初始聚类中心之间的变化值,当所述变化值小于预设数值时,将所述新聚类中心作为所述最终聚合聚类中心。
[0084]
进一步地,当所述变化值大于等于所述预设数值时,则将所述新聚类中心替代初始聚类中心并重复执行s101-s102,进一步更新迭代聚类中心,直至最新一代的聚类中心与上一代的聚类中心之间的变化值小于所述预设数值,完成迭代计算并得到所述最终聚合聚类中心。
[0085]
s103:根据最终聚合聚类中心,确定待清洗底层数据的最终类别,并根据最终类别进行待清洗底层数据的异常值处理,得到异常值处理结果。
[0086]
在一具体实施例中,根据所述最终类别进行所述待清洗底层数据的异常值处理,具体为:
[0087]
所述异常值处理包括缺失值填充,进一步地,缺失值填充方法是处理缺失数据问题最合理的方法。缺失值记录和完整数据集有着很多的信息关联,通过对数据进行聚类分析,能够发现和缺失值相似的数据合集,从而更准确地进行缺失值填充。优选地,将k-means聚类算法作为缺失值填充方法,k-means聚类算法具有简单且效率高的优点。它将对象组织成多个互斥的组或簇,认为两个对象的距离越近,其相似度就越大。
[0088]
k-means聚类算法的原理如下:假设数据集d包含n个欧式空间中的对象,要将d的对象分配到k个簇c1,...,ck中,使得对于1≤i,j≤k(i、j、k均为实数),且
[0089]
设p是空间中的点,表示给定的数据对象,ci是簇ci的中心,其中p和ci都是多维数据。采用欧式距离作为评价指标,两个点x和y之间的欧式距离用dist(x,y)表示,对象p∈c
l
与该簇的代表ci之差用dist(p,ci)表示。簇ci的质量用簇内变差度量,即ci中所有对象与中心ci之间的误差平方和,定义为:
[0090][0091]
其中,e为数据中所有对象的误差平方和。
[0092]
进一步地,在进行所述缺失值填充之前,还包括:
[0093]
1、确定缺失数据范围:对每个字段计算其缺失数据比例,然后按照缺失例和字段重要性,分别制定策略;
[0094]
2、去除不需要的字段。
[0095]
具体地,发明实施例通过对待清洗底层数据进行聚类处理并生成相应的类别后,再根据类别进行异常值处理,能够有效提高异常值处理的效率,从而进一步提高数据清洗的效率。
[0096]
在一具体实施例中,k-means聚类算法在mapreduce模型下处理过程如下:
[0097]
在map阶段完成计算并记录待清洗底层数据中多个对象与多个初始聚类中心之间的欧式距离;并根据多个对象及其相应的欧式距离,计算并记录得到每个对象对应的初始类别。在reduce阶段,根据map阶段得到的欧式距离进行分类排序即可计算出新聚类中心,供下一轮map使用,如果本轮reduce得到的新聚类中心与上轮聚类中心相比,变化值小于预设数值,则算法结束,反之进行新一轮的mapreduce过程;直至最新一代的聚类中心与上一
代的聚类中心之间的变化值小于所述预设数值,完成迭代计算并得到所述最终聚合聚类中心。
[0098]
进一步地,mapreduce模型的运行原理为:
[0099]
在map阶段,并行计算框架将输入数据分割为固定大小的片段,随后将每个片段存储为《key1,value1》格式的键值对,每个mapper按照输入的键值对进行分布式计算,得到中间结果《key2,value2》,接着将中间结果key2进行排序,并将key2值相同的中间结果放在一起,形成《key2,list(value2)》。在reduce阶段,reducer将不同mapper输出的中间结果整合在一起,并进行排序,然后调用用户自动定义的reduce()函数,对中间结果进行计算处理。
[0100]
在一具体实施例中,所述初始聚类中心通过k-means聚类算法计算而得,具体为:
[0101]
(1)、各个map节点读取上传至数据采集层的数据集,采用最大最小距离算法生成多个聚类聚合。
[0102]
(2)、在reduce阶段将map阶段生成的若干聚类集合采用k-means聚类算法生成k个初始聚类中心。
[0103]
(3)、将生成的初始聚类中心的信息写入cluster目录中,并将该目录中的文件加入到hadoop的分布式缓存(distributed cache)中,并作为下一阶段聚类迭代时的全局共享信息。
[0104]
进一步地,k-means算法的mapreduce实现原理具体为:
[0105]
(1)、每一个map节点在setup()方法中读入分布式缓存中上一轮迭代产生的簇中心信息。
[0106]
(2)、通过map方法计算每个数据点与各簇中心点的欧式距离,找到离其最近的簇中心点,将该簇中心的id作为可以,该数据点信息作为value传输出去。
[0107]
(3)、在map端利用combiner类将每个map节点的相同簇id键值分别进行合并,以此减轻数据的网络传输开销。
[0108]
(4)、在reduce端将combiner产生的结果再进行合并,并将同一个簇的数据点根据公式计算出临时中心点,并将其加入到分布式缓存中。其中,ai为簇ci的临时中心点,mi为ci中数据点总数,x表示簇ci中的数据点。
[0109]
s104:根据异常值处理结果进行完整性修复操作后,完成对待清洗底层数据的数据清洗。
[0110]
在一具体实施例中,所述根据所述异常值处理结果进行完整性修复操作,具体为:
[0111]
检测异常值处理结果中的数据格式(即数据性质),对数据格式进行预处理;判断预处理后的数据是否符合数据完整性约束,如果不符合,则要修复数据。如果在数据修复之后依然存在着与数据完整性约束不一致的情况,则要再次修复数据,直到数据符合要求;数据修复完成后,将其还原成原格式后,完成对所述待清洗底层数据的数据清洗。其中,完整性约束可由以下公式进行表示:
[0112]
[0113]
其中,pi表示关系,表示元组变量和常量,表示只含有built-in谓词的公式。m、n均为实数,是p对应于的属性集,是p对应于的属性集。
[0114]
在本实施例中,还包括:
[0115]
完成对所述待清洗底层数据的数据清洗后,生成第一清洗结果;
[0116]
获取所述第一清洗结果的数据性质,根据所述数据性质进行数据转换操作,生成第一转换结果,并将所述第一转换结果存储于分布式文件系统中。
[0117]
在一具体实施例中,所述获取所述第一清洗结果的数据性质,根据所述数据性质进行数据转换操作,生成第一转换结果,并将所述第一转换结果存储于分布式文件系统中,具体为:
[0118]
数据转换的目的是将数据变换成为统一适合分析的形式或格式,通过数据规范化操作实现。规范化是指将属性数据按比例缩放,使之落入一个小的特定区间。本实例采用最大最小规范化和z-score标准化对第一清洗结果进行数据转化,得到第一转换结果。
[0119]
最大最小规范化计算公式为:
[0120][0121]
其中,其中,maxa为属性a的最大值,mina分别为属性a的最小值。v是属性a中的值,v’是v映射到区间[new_mina,new_maxa]中的值,new_maxa为属性a的最新最大值new_mina为属性a的最新最小值。
[0122]
通过最大最小规范化计算公式可以将属性a上的值映射到[new_maxa,new_mina]范围中的v’。最大最小归一化的不足是当有新数据加入时,可能导致max和min的变化,需要z-score规范化计算公式重新定义。
[0123]
z-score规范化计算公式为:
[0124][0125]
其中,其中,为属性a的均值,δa为属性a的标准差,属性a的值v经过z-score规范化后得到v’。
[0126]
在属性a的最大值和最小值未知的情况下,z-score规范化是有效的。
[0127]
为了进一步说明底层数据清洗装置,请参照图2,图2是本发明一实施例提供的一种底层数据清洗装置的结构示意图,包括:第一计算模块201、第二计算模块202和清洗模块203;
[0128]
所述第一计算模块201用于获取待清洗底层数据后,在mapreduce模型中通过k-means聚类算法计算所述待清洗底层数据中多个对象与多个初始聚类中心之间的欧式距离;其中,所述初始聚类中心通过所述k-means聚类算法计算而得;
[0129]
其中,所述初始聚类中心通过k-means聚类算法计算而得;
[0130]
所述第二计算模块202用于通过所述mapreduce模型根据所述欧式距离进行分类排序,并根据排序结果迭代计算得到最终聚合聚类中心;
[0131]
所述清洗模块203用于根据所述最终聚合聚类中心,确定所述待清洗底层数据的
最终类别,并根据所述最终类别进行所述待清洗底层数据的异常值处理,得到异常值处理结果;根据所述异常值处理结果进行完整性修复操作后,完成对所述待清洗底层数据的数据清洗。
[0132]
在本实施例中,所述初始聚类中心通过k-means聚类算法计算而得,具体为:
[0133]
在所述mapreduce模型中根据最大最小距离算法,计算得到多个聚类集合;
[0134]
根据多个所述聚类集合和所述k-means聚类算法,计算得到多个所述初始聚类中心。
[0135]
在一具体实施例中,本发明提供了一种移动终端,包括处理器和存储器,所述存储器存储有计算机可读程序代码,所述处理器执行所述计算机可读程序代码时实现上述的一种底层数据清洗方法的步骤。
[0136]
在一具体实施例中,本发明提供了一种存储介质,所述存储介质存储计算机可读程序代码,当所述计算机可读程序代码被执行时实现上述的一种底层数据清洗方法的步骤。
[0137]
本发明实施例先通过第一计算模块201获取待清洗底层数据后,在mapreduce模型中通过k-means聚类算法计算所述待清洗底层数据中多个对象与多个初始聚类中心之间的欧式距离;其中,所述初始聚类中心通过所述k-means聚类算法计算而得;再通过第二计算模块202通过mapreduce模型根据欧式距离进行分类排序,并根据排序结果迭代计算得到最终聚合聚类中心;最后通过清洗模块203根据最终聚合聚类中心,确定待清洗底层数据的最终类别,并根据最终类别进行待清洗底层数据的异常值处理,得到异常值处理结果;根据异常值处理结果进行完整性修复操作后,完成对待清洗底层数据的数据清洗。
[0138]
本发明实施例通过先通过mapreduce模型计算得到待清洗底层数据的最终类别,并根据最终类别进行异常值处理,能够有效提高异常值处理的效率;并根据快速得到的异常值处理结果进行完整性修复后,完成对待清洗底层数据的数据清洗,从而提高了待清洗底层数据的数据清洗效率,从而进一步提高继电保护系统的保护准确性。
[0139]
同时,本发明实施例根据最终类别进行异常值处理,能够有提高异常值处理的准确性,提高异常值处理结果的精度;能够改进底层数据的质量,为其他应用提供高质量的底层数据基础,从而提高数据挖掘或数据流挖掘的精度和性能。其中,初始聚类中心通过k-means聚类算法计算而得,在mapreduce框架下,k-means聚类算法的使用范围由单机扩展到云计算平台,在面对海量数据,极大地减少了k-means聚类算法的运行时间,显著地提高了运行效率。
[0140]
再者,本发明实施例基于hadoop技术实现数据采集与存储,以便于数字孪生采集层在进行数据清洗和转换的过程中有效获取数据,从而进一步提高数据清洗的效率及准确性。
[0141]
此外,本发明实施例供一种符合iec-61850标准的“采集器”接口进行原始数据层信号与数据采集,接口标准化能够优化变电站的自动化系统,提高整个系统的安全和可靠性,并最终实现站内信息的共享和系统集成。
[0142]
最后,本发明实施例使用logsf特征选择算法对始底层数据进行降维,能够将复杂且非线性的问题转化为简单的易于理解的局部线性问题,从而提高数据处理效率。以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本
发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
技术特征:
1.一种底层数据清洗方法,其特征在于,包括:获取待清洗底层数据后,在mapreduce模型中通过k-means聚类算法计算所述待清洗底层数据中多个对象与多个初始聚类中心之间的欧式距离;其中,所述初始聚类中心通过所述k-means聚类算法计算而得;通过所述mapreduce模型根据所述欧式距离进行分类排序,并根据排序结果迭代计算得到最终聚合聚类中心;根据所述最终聚合聚类中心,确定所述待清洗底层数据的最终类别,并根据所述最终类别进行所述待清洗底层数据的异常值处理,得到异常值处理结果;根据所述异常值处理结果进行完整性修复操作后,完成对所述待清洗底层数据的数据清洗。2.根据权利要求1所述的一种底层数据清洗方法,其特征在于,所述初始聚类中心通过k-means聚类算法计算而得,具体为:在所述mapreduce模型中根据最大最小距离算法计算得到多个聚类集合;根据多个所述聚类集合和所述k-means聚类算法,计算得到多个所述初始聚类中心。3.根据权利要求1所述的一种底层数据清洗方法,其特征在于,还包括:所述mapreduce模型将所述待清洗底层数据分割成固定大小的多个片段,将多个所述片段存储成键值对,并根据所述键值对和多个所述对象进行分布式计算,得到分布式计算结果。4.根据权利要求1所述的一种底层数据清洗方法,其特征在于,所述通过所述mapreduce模型根据所述欧式距离进行分类排序,根据排序结果迭代计算得到最终聚合聚类中心,具体为:根据所述排序结果得到新聚类中心,计算所述新聚类中心和所述初始聚类中心之间的变化值,当所述变化值小于预设数值时,将所述新聚类中心作为所述最终聚合聚类中心。5.根据权利要求1所述的一种底层数据清洗方法,其特征在于,所述获取待清洗底层数据,具体为:获取初始底层数据,对所述初始底层数据进行降维处理后,生成所述待清洗底层数据并获取;其中,所述获取初始底层数据,具体为:基于hadoop技术采集所述初始底层数据后并获取;其中,所述初始底层数据包括:四遥数据、压板数据、定值数据、告警数据、故障信号和动作事件数据。6.根据权利要求5所述的一种底层数据清洗方法,其特征在于,还包括:完成对所述待清洗底层数据的数据清洗后,生成第一清洗结果;获取所述第一清洗结果的数据性质,根据所述数据性质进行数据转换操作,生成第一转换结果,并将所述第一转换结果存储于分布式文件系统中。7.一种底层数据清洗装置,其特征在于,包括:第一计算模块、第二计算模块和清洗模块;其中,所述第一计算模块用于获取待清洗底层数据后,在mapreduce模型中通过k-means聚类算法计算所述待清洗底层数据中多个对象与多个初始聚类中心之间的欧式距离;其中,所述初始聚类中心通过所述k-means聚类算法计算而得;所述第二计算模块用于通过所述mapreduce模型根据所述欧式距离进行分类排序,并
根据排序结果迭代计算得到最终聚合聚类中心;所述清洗模块用于根据所述最终聚合聚类中心,确定所述待清洗底层数据的最终类别,并根据所述最终类别进行所述待清洗底层数据的异常值处理,得到异常值处理结果;根据所述异常值处理结果进行完整性修复操作后,完成对所述待清洗底层数据的数据清洗。8.根据权利要求7所述的一种底层数据清洗装置,其特征在于,所述初始聚类中心通过k-means聚类算法计算而得,具体为:在所述mapreduce模型中根据最大最小距离算法计算得到多个聚类集合;根据多个所述聚类集合和所述k-means聚类算法,计算得到多个所述初始聚类中心。9.一种移动终端,其特征在于,包括处理器和存储器,所述存储器存储有计算机可读程序代码,所述处理器执行所述计算机可读程序代码时实现权利要求1至6中任一项所述的一种底层数据清洗方法的步骤。10.一种存储介质,其特征在于,所述存储介质存储计算机可读程序代码,当所述计算机可读程序代码被执行时实现权利要求1至6中任一项所述的一种底层数据清洗方法的步骤。
技术总结
本发明公开了一种底层数据清洗方法、装置、移动终端和存储介质,所述方法包括:获取待清洗底层数据,在MapReduce模型中通过K-Means聚类算法计算待清洗底层数据中多个对象与多个初始聚类中心之间的欧式距离;其中,初始聚类中心通过所述K-Means聚类算法计算而得;通过MapReduce模型根据欧式距离进行分类排序,并根据排序结果迭代计算得到最终聚合聚类中心;根据最终聚合聚类中心,确定待清洗底层数据的最终类别,并根据最终类别进行待清洗底层数据的异常值处理后,根据异常值处理结果进行完整性修复操作,完成对待清洗底层数据的数据清洗。采用本发明能提高底层数据的清洗效率。清洗。采用本发明能提高底层数据的清洗效率。清洗。采用本发明能提高底层数据的清洗效率。
技术研发人员:王峰 李一泉 邓旭阳 谭乾 朱佳 刘世丹 温涛
受保护的技术使用者:广东电网有限责任公司电力调度控制中心
技术研发日:2022.02.18
技术公布日:2022/5/25
转载请注明原文地址:https://tc.8miu.com/read-7955.html