1.本发明涉及大数据技术领域,具体为一种基于人工智能的大数据采集存储管理系统及方法。
背景技术:
2.随着计算机技术的快速发展,人工智能技术得到广泛运用,企业中,人们人们可以采用人工智能的方式实现对大数据的快速处理,不仅处理速度更快,且效率更高,为企业进一步研究数据变化趋势提供了参考依据。
3.现如今的人工智能数据采集存储管理系统中,分为两类:
4.①
只是简单的实现对数据的采集与存储,不对采集的数据进行筛选;
5.②
对采集的数据只是简单的筛选,仅仅通过获取的数据与阈值进行比较,判断数据是否异常,删除异常数据,而不是对其进行校准;
6.因此,现有的人工智能数据采集存储管理系统存在较大的缺陷,无法准确锁定采集的数据中的异常数据,且直接删除异常数据会导致数据缺失,进而对后续的数据分析造成影响。
7.针对上述情况,我们需要一种基于人工智能的大数据采集存储管理系统及方法。
技术实现要素:
8.本发明的目的在于提供一种基于人工智能的大数据采集存储管理系统及方法,以解决上述背景技术中提出的问题。
9.为了解决上述技术问题,本发明提供如下技术方案:一种基于人工智能的大数据采集存储管理系统及方法,包括:
10.数据采集模块,所述数据采集模块用于对数据信息进行采集;
11.数据智能处理模块,所述数据智能处理模块包括数据相似性判定模块、数据融合模块及数据拆分处理模块,
12.所述数据相似性判定模块用于判断采集数据之间的相似性;
13.所述数据融合模块将相似信息进行数据融合,得到融合数据及相应的融合值;
14.所述数据拆分处理模块获取数据采集模块中采集数据中的异常数据,并结合历史数据对融合数据进行拆分,得到相应的拆分数据;
15.数据存储模块,所述数据存储模块获取处理后的采集数据,并将其保存到数据库中。
16.本发明通过各个模块的协同合作,共同实现了对大数据的采集、筛选及存储,并通过计算相似性及融合值的方式实现对数据的筛选及清洗,通过拆分数据及拆分增殖的方式实现对异常数据的替换,相当于对异常数据的校准,进而确保采集的数据的准确性及采集数据的个数的完整及统一。
17.进一步的,所述数据采集模块每隔第一单位时间对数据信息进行一次采集,每次
采集的数据个数为2n 1个,n为正整数,将每次采集的第2n 1个数据进行标注,作为第一标注点,
18.将第一单位时间中第i个数据对应的值记为ai;
19.获取与第一标注点时间间隔小于等于第二单位时间内的所有数据,将第二单位时间内获取的数据中第i1个数据对应的值记为b
i1
,将第二单位时间内的数据个数记为n1;
20.计算第一单位时间内各个数据与相应平均值之间的平均差异值,记为第一差异值,所述第一差异值为其中,a1等于第一单位时间内各个数据的平均值,
21.计算第二单位时间内各个数据与相应平均值之间的平均差异值,记为第二差异值,所述第二差异值为其中,a2等于第二单位时间内各个数据的平均值,
22.所述数据采集模块根据第一差异值及第二差异值,得到区间差异数c,
23.所述
24.本发明数据采集模块设置第一标准点,是因为数据采集方式每个第一单位时间获取一次的,因此,本发明是将第一单位时间内采集的2n 1个数据作为一个整体的,进而获取第二单位时间内的数据时,首先需要获取一个参照点,而第2n 1个数据位于第一单位时间采集数据中的最后位置,具有较强的代表性;获取第一差异值,是为了获取第一单位时间内各个数据与平均值之间的差异值的平均值;获取第一差异值的过程中,采用绝对值的方式,是因为不同数据与平均值之间的差异值的符号可能是不相同的,设置绝对值是为了对各个差异值的符号进行统一,避免不同符合的差异值相互之间进行抵消,进而对第一差异值造成影响,进而使得获取的结果偏小;获取区间差异数c时,用第二差异值减去第一差异值,是为了确定分析不同区间之间的数据对应平均差异值的差异情况,在后续计算拆分数据相对于异常数据位置集合中的第j个元素对应数据的归一值的过程中,异常参照量集合中对应的元素集合内的数据的获取周期也是第二单位时间,与c的获取是相对应的,均是参照第二单位时间进行数据分析的。
25.进一步的,所述数据相似性判定模块判断采集数据之间的相似性的方法包括以下步骤:
26.s1.1、获取数据采集模块最近一次采集的第一单位时间内的各个数据,并按获取的先后顺序分别为获取的数据进行编号;
27.s1.2、将不同数据编号进行排列组合,得到不同的数据编号对,记为[d1,d2],其中,d1表示第一数据编号,d2表示第二数据编号,第一数据编号与第二数据编号不同;
[0028]
s1.3、计算d1对应的数据与d2对应的数据之间的相似值ed1d2,
[0029]
所述其中,hd1表示d1对应的数据,hd2表示对应的数据,hd1>0,
[0030]
当hd1≤0时,则判定d1对应的数据异常。
[0031]
本发明数据相似性判定模块在获取数据之间相似性的过程中,也在对获取数据中的异常情况进行判断,进而快速锁定获取数据中的异常数据(hd1≤0时,d1对应的数据);在
获取d1对应的数据与d2对应的数据之间的相似值ed1d2的过程中,表示d2对应的数据相对于d1对应的数据的偏差值,用1减去d2对应的数据相对于d1对应的数据的偏差值,进而得到d2对应的数据与d1对应的数据两者之间的相似值。
[0032]
进一步的,所述数据融合模块得到融合数据的方法包括以下步骤:
[0033]
s2.1、获取数据采集模块最近一次采集的第一单位时间内的各个数据及相应的编号;
[0034]
s2.2、获取编号为d3的数据,判断编号为d3的数据是否异常,
[0035]
当hd3≤0时,则判定编号为d3的数据异常,不获取其相应的融合数据,
[0036]
当hd3>0时,获取数据相似性判定模块中第一数据编号等于d3的数据编号对及相应数据编号对对应的相似值;
[0037]
s2.3、按第二数据编号从小到达的顺序,逐个将第一数据编号等于d3的数据编号对对应的相似值与第一阈值进行比较,
[0038]
当相似值小于第一阈值时,则判定该相似值对应数据编号对中的第一数据编号对应的数据与第二数据编号对应的数据不相似,两者无法进行融合,
[0039]
当相似值大于等于第一阈值时,则判定该相似值对应的数据编号对中第一数据编号对应的数据与第二数据编号对应的数据能够进行融合;
[0040]
s2.4、得到d3为不同值时,编号为d3的数据相应的融合数据h1d3,
[0041]
所述h1d3={hd3:kd3},其中,kd3为一个集合,hd3与kd3构成键值对,hd3为键对象,kd3为值对象,
[0042]
所述kd3中的每个元素与一个数据编号对相关联,且所述数据编号对中的第一数据编号对应的数据为hd3,且第一数据编号对应的数据与第二数据编号对应的数据能够进行融合,
[0043]
所述kd3中的第n2个元素对应的值记为
[0044]
其中,d4表示kd3中的第n2个元素对应数据编号对中第二数据编号,
[0045]
的底数hd4表示编号为d4的数据对应的值,
[0046]
的上标ed3d4表示编号为d3的数据与编号为d4的数据之间的相似值,
[0047]
每个融合数据对应一个融合值,
[0048]
kd3中各个值中底数的均值与各个值中上标的均值的乘积,所得乘积与键对象的平均值为h1d3对应的融合值。
[0049]
本发明数据融合模块得到融合数据的过程中,s2.2是为了筛选出获取数据中的异常数据,进而锁定获取融合数据的范围;s2.3是为了哪些数据相互之间能够进行融合,即得到融合数据相应的融合条件;s2.4描述的是融合数据的记录形式及相应融合值的计算方式;融合数据采用键值对的形式进行记录是因为两者能够较好的体现出对应关系,且键值对的值对象采用集合的方式,既能够保证融合数据的形式统一,且又不对值对象的长短及大小进行限制;获取h1d3对应的融合值的过程中,kd3中各个值中底数的均值表示能够与d3对应的数据进行融合的各个数据的均值,kd3中各个值中上标的均值表示能够与d3对应的数据进行融合的各个数据分别与hd3的相似值之间的平均值;获取kd3中各个值中底数的均
值与各个值中上标的均值的乘积,即得到能够与d3对应的数据进行融合的各个数据之间的融合数,计算的是能够与d3对应的数据进行融合的各个数据之间对应的融合结果,而计算所得乘积与键对象的平均值,是为了得到融合数据与hd3之间的融合结果,即融合值。
[0050]
进一步的,所述数据融合模块中,kd3中的第n2个元素对应的值记为并不对hd4对应的融合数据产生影响,
[0051]
数据采集模块最近一次采集的第一单位时间内的各个数据经过数据融合模块处理后,可以包含多个融合数据,
[0052]
所述数据融合模块选取值对象为空集的融合数据,将该融合数据中键对象对应的数据与第二阈值区间进行比较,
[0053]
当融合数据中键对象对应的数据在第二阈值区间内时,则判定该融合数据为独立融合数据,
[0054]
当融合数据中键对象对应的数据不在第二阈值区间内时,则判定该融合数据中键对象对应的数据为异常数据。
[0055]
本发明融合数据模块进一步对融合数据进行分析,进而对数据采集模块中的数据的异常情况进行二次判断;独立融合数据对应的融合值等于键对象对应的数据本身。
[0056]
进一步的,所述数据拆分处理模块包括异常位置确认模块及融合数据拆分模块,
[0057]
所述异常位置确认模块获取数据采集模块最近一次采集的第一单位时间内的各个数据,判断各个数据是否为异常数据,将各个异常数据对应的编号逐个添加到一个空白集合中,得到异常数据位置集合;
[0058]
所述融合数据拆分模块以第二单位时间为周期,获取异常数据位置集合中每个元素对应编号在历史数据中,前n4个周期中分别对应的n4个数据,将获取的n4个数据作为异常数据位置集合中相应元素对应编号的元素集合,按元素对应的编号从小到达的顺序将异常数据位置集合中各个元素分别对应的元素集合进行汇总,得到异常参照量集合,
[0059]
所述异常参照量集合中的每个元素对应一个元素集合,
[0060]
所述融合数据拆分模块获取各个融合数据中键对象对应的编号,对融合数据进行拆分,并结合异常参照量数据集合筛选拆分后的数据,并替换相应的异常数据。
[0061]
本发明数据拆分处理模块中异常位置确认模块得到异常数据位置集合,一方面是为了确定融合数据拆分模块是否需要对融合数据进行拆分,另一方面是为了锁定融合数据拆分模块对融合数据进行拆分的程度(是否需要进行拆分增殖),及判断拆分数据之间的替换优先级;容忍数据拆分模块获取异常参照量集合是为了获取拆分数据之间的替换优先级;获取异常参照量集合的过程中,设置第二单位时间为周期,是为了与上述获取区间差异量c过程中的相对时间进行统一,进而能够在异常数据替换过程中,对拆分数据进行校准。
[0062]
进一步的,所述融合数据拆分模块对融合数据进行拆分的方法包括以下步骤:
[0063]
s3.1、获取异常数据位置集合中的元素个数m2,
[0064]
若m2=0,则不对融合数据进行拆分,
[0065]
若m2>0,则对融合数据进行拆分;
[0066]
s3.2、获取数据采集模块最近一次采集的第一单位时间内的各个数据经过数据融合模块处理后,且除独立融合数据之外的各个融合数据及相应融合数据中键对象对应的编号;
[0067]
s3.3、获取s3.2中得到的键对象对应编号为j1的融合数据h1j1={hj1:kj1},获取该融合数据中值对象相应集合中各个元素的值;
[0068]
s3.4、获取kj1对应集合中元素的个数m,获取kj1中m-m1个元素构成的组合情况,将每个组合情况中的包含的元素分别对应的值构成一个组合对,所述0≤m1<m;
[0069]
s3.5、每个组合对对应一个拆分数据,所述拆分数据等于相应组合对中各个值中底数的均值与各个值中上标的均值的乘积;
[0070]
s3.6、统计s3.2中得到的所有融合数据相应拆分数据的总和m3,将m3与m2进行比较,
[0071]
当m3>m2时,判定融合数据拆分结束,
[0072]
当m3≤m2时,则进一步对s3.2中得到的所有融合数据进行拆分增殖,将m1对应的值加1,并跳转到s3.3,将增殖的拆分数据个数记为m4,
[0073]
将m3与m4的和与m2进行比较,
[0074]
当m3 m4>m2时,判定融合数据拆分结束,
[0075]
当m3 m4≤m2时,则进一步对s3.2中得到的所有融合数据进行拆分增殖,将m1对应的值加1,并跳转到s3.3;
[0076]
所述拆分增殖过程中,若m-m1<0时,则停止对该m对应的融合数据进行拆分增殖,跳转到下一个融合数据正常执行拆分增殖。
[0077]
本发明融合数据拆分模块对融合数据进行拆分的过程中,s3.1描述的是对融合数据进行拆分的条件;s3.4描述的是对融合数据进行拆分的方式;s3.5描述的是对融合数据中拆分数据的计算方式;s3.6描述的是拆分增殖的判定条件及执行方式;将m3及m3 m4与m2进行比较,是为了确保拆分数据的个数超过异常数据的个数,进而保证拆分数据的样本数足够大,进而使得替换的异常数据的拆分数据精确度更高。
[0078]
进一步的,所述数据融合拆分模块结合异常参照量数据集合筛选拆分后的数据的方法包括以下步骤:
[0079]
s4.1、获取异常位置确认模块得到的异常数据位置集合,并选取异常数据位置集合中的第j个元素对应的编号及相应编号的数据在异常参照量集合中对应的元素集合;
[0080]
s4.2、获取融合数据中各个组合对相应的拆分数据,并计算各个拆分数据相对于异常数据位置集合中的第j个元素对应数据的归一值,
[0081]
若某拆分数据的值记为hc,该拆分数据对应融合数据中键对象相应编号记为dp,
[0082]
则该拆分数据相对于异常数据位置集合中的第j个元素对应数据的归一值等于
[0083]
其中,wj表示异常数据位置集合中的第j个元素对应的编号的数据在异常参照量集合中对应元素集合中的元素个数,dj表示异常数据位置集合中的第j个元素对应的编号,表示编号为dj的数据在异常参照量集合中对应的元素集合内的第g个元素的值,r为常数,r |dp-dj|>0;
[0084]
s4.3、比较各个拆分数据相对于异常数据位置集合中的第j个元素对应数据的归一值,并按从大到小的顺序对各个归一值进行排序,获取各个拆分数据相对于异常数据位
置集合中的第j个元素对应数据的替换优先级,
[0085]
所述每个拆分数据相对于异常数据位置集合中的第j个元素对应数据的替换优先级,与该拆分数据相对于异常数据位置集合中的第j个元素对应数据的归一值的排序序号相等;
[0086]
s4.4、计算相对于异常数据位置集合中的第j个元素对应数据的最高替换优先级的拆分数据的值与c的和,将所得和与0进行比较,判断所得和是否异常,
[0087]
若所得和大于0,则判定所得和正常,并用所得和替换采集模块最近一次采集的第一单位时间内的各个数据中,且与异常数据位置集合中的第j个元素相对应的数据,
[0088]
若所得和小于等于0,则判定所得和异常,按替换优先级从高到低的顺序逐个将各拆分数据的值与c的和与0进行比较,直至得到相应的和大于0的情况,并将该相应的和替换采集模块最近一次采集的第一单位时间内的各个数据中,且与异常数据位置集合中的第j个元素相对应的数据,
[0089]
如果按替换优先级从高到低的顺序逐个将各拆分数据的值与c的和与0进行比较,且得到相应的和均小于等于0时,则采集模块最近一次采集的第一单位时间内的各个数据中,且与异常数据位置集合中的第j个元素相对应的数据不变。
[0090]
本发明数据融合拆分模块结合异常参照量数据集合筛选拆分后的数据的过程中,计算拆分数据相对于异常数据位置集合中的第j个元素对应数据的归一值,是为了后续获取各个拆分数据相对于异常数据位置集合中的第j个元素对应数据的替换优先级,进而实现对拆分数据的有效筛选;s4.4中描述的是对替换优先级较高的拆分数据的有效性进行确定,并对替换优先级较高且无效的拆分数据进行处理;获取拆分数据相对于异常数据位置集合中的第j个元素对应数据的归一值的过程中,计算hc c的和,是为了对拆分数据hc进行校准;计算是为了对校准后的拆分数据与参照量集合中的第g个参照量之间的偏差值;计算是为了获取校准后的拆分数据与参照量集合中的各个参照量之间偏差值的标准差;表示拆分数据位置相对异常数据位置集合中的第j个元素对应编号位置之间的位置偏差系数;r代表的常数对位置偏差系数起到调节作用。
[0091]
一种基于人工智能的大数据采集存储管理方法,所述方法包括以下步骤:
[0092]
s1、数据采集模块用于对数据信息进行采集;
[0093]
s2、数据相似性判定模块用于判断采集数据之间的相似性;
[0094]
s3、数据融合模块将相似信息进行数据融合,得到融合数据及相应的融合值;
[0095]
s4、数据拆分处理模块获取数据采集模块中采集数据中的异常数据,并结合历史数据对融合数据进行拆分,得到相应的拆分数据;
[0096]
s5、数据存储模块获取处理后的采集数据,并将其保存到数据库中。
[0097]
与现有技术相比,本发明所达到的有益效果是:本发明通过计算相似性及融合值的方式实现对大数据的筛选及清洗,通过拆分数据及拆分增殖的方式实现对异常数据的替换,相当于对异常数据进行校准,进而确保采集的数据的准确性及采集数据的个数的完整及统一。
附图说明
[0098]
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
[0099]
图1是本发明一种基于人工智能的大数据采集存储管理系统的结构示意图;
[0100]
图2是本发明一种基于人工智能的大数据采集存储管理系统中数据融合模块得到融合数据的方法的流程示意图;
[0101]
图3是本发明一种基于人工智能的大数据采集存储管理系统中融合数据拆分模块对融合数据进行拆分的方法的流程示意图;
[0102]
图4是本发明一种基于人工智能的大数据采集存储管理方法的流程示意图。
具体实施方式
[0103]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0104]
请参阅图1-图4,本发明提供技术方案:一种基于人工智能的大数据采集存储管理系统及方法,包括:
[0105]
数据采集模块,所述数据采集模块用于对数据信息进行采集;
[0106]
数据智能处理模块,所述数据智能处理模块包括数据相似性判定模块、数据融合模块及数据拆分处理模块,
[0107]
所述数据相似性判定模块用于判断采集数据之间的相似性;
[0108]
所述数据融合模块将相似信息进行数据融合,得到融合数据及相应的融合值;
[0109]
所述数据拆分处理模块获取数据采集模块中采集数据中的异常数据,并结合历史数据对融合数据进行拆分,得到相应的拆分数据;
[0110]
数据存储模块,所述数据存储模块获取处理后的采集数据,并将其保存到数据库中。
[0111]
本发明通过各个模块的协同合作,共同实现了对大数据的采集、筛选及存储,并通过计算相似性及融合值的方式实现对数据的筛选及清洗,通过拆分数据及拆分增殖的方式实现对异常数据的替换,相当于对异常数据的校准,进而确保采集的数据的准确性及采集数据的个数的完整及统一。
[0112]
所述数据采集模块每隔第一单位时间对数据信息进行一次采集,每次采集的数据个数为2n 1个,n为正整数,将每次采集的第2n 1个数据进行标注,作为第一标注点,
[0113]
将第一单位时间中第i个数据对应的值记为ai;
[0114]
获取与第一标注点时间间隔小于等于第二单位时间内的所有数据,将第二单位时间内获取的数据中第i1个数据对应的值记为b
i1
,将第二单位时间内的数据个数记为n1;
[0115]
计算第一单位时间内各个数据与相应平均值之间的平均差异值,记为第一差异值,所述第一差异值为其中,a1等于第一单位时间内各个数据的平均值,
[0116]
计算第二单位时间内各个数据与相应平均值之间的平均差异值,记为第二差异值,所述第二差异值为其中,a2等于第二单位时间内各个数据的平均值,
[0117]
所述数据采集模块根据第一差异值及第二差异值,得到区间差异数c,
[0118]
所述
[0119]
本实施例中若最近一次的第一单位时间内获取的数据分别为28,30,29,则第一标注点为30,若与30对应时间间隔小于等于第二单位时间内的所有数据分别为27,31,29,28,29,30;
[0120][0121]
则第一差异值为
[0122][0123]
则第二差异值为则第二差异值为
[0124]
则
[0125]
本发明数据采集模块设置第一标准点,是因为数据采集方式每个第一单位时间获取一次的,因此,本发明是将第一单位时间内采集的2n 1个数据作为一个整体的,进而获取第二单位时间内的数据时,首先需要获取一个参照点,而第2n 1个数据位于第一单位时间采集数据中的最后位置,具有较强的代表性;获取第一差异值,是为了获取第一单位时间内各个数据与平均值之间的差异值的平均值;获取第一差异值的过程中,采用绝对值的方式,是因为不同数据与平均值之间的差异值的符号可能是不相同的,设置绝对值是为了对各个差异值的符号进行统一,避免不同符合的差异值相互之间进行抵消,进而对第一差异值造成影响,进而使得获取的结果偏小;获取区间差异数c时,用第二差异值减去第一差异值,是为了确定分析不同区间之间的数据对应平均差异值的差异情况,在后续计算拆分数据相对于异常数据位置集合中的第j个元素对应数据的归一值的过程中,异常参照量集合中对应的元素集合内的数据的获取周期也是第二单位时间,与c的获取是相对应的,均是参照第二单位时间进行数据分析的。
[0126]
所述数据相似性判定模块判断采集数据之间的相似性的方法包括以下步骤:
[0127]
s1.1、获取数据采集模块最近一次采集的第一单位时间内的各个数据,并按获取的先后顺序分别为获取的数据进行编号;
[0128]
s1.2、将不同数据编号进行排列组合,得到不同的数据编号对,记为[d1,d2],其中,d1表示第一数据编号,d2表示第二数据编号,第一数据编号与第二数据编号不同;
[0129]
s1.3、计算d1对应的数据与d2对应的数据之间的相似值ed1d2,
[0130]
所述其中,hd1表示d1对应的数据,hd2表示对应的数据,hd1>0,
[0131]
当hd1≤0时,则判定d1对应的数据异常。
[0132]
本发明数据相似性判定模块在获取数据之间相似性的过程中,也在对获取数据中的异常情况进行判断,进而快速锁定获取数据中的异常数据(hd1≤0时,d1对应的数据);在获取d1对应的数据与d2对应的数据之间的相似值ed1d2的过程中,表示d2对应的数据相对于d1对应的数据的偏差值,用1减去d2对应的数据相对于d1对应的数据的偏差值,进而得到d2对应的数据与d1对应的数据两者之间的相似值。
[0133]
所述数据融合模块得到融合数据的方法包括以下步骤:
[0134]
s2.1、获取数据采集模块最近一次采集的第一单位时间内的各个数据及相应的编号;
[0135]
s2.2、获取编号为d3的数据,判断编号为d3的数据是否异常,
[0136]
当hd3≤0时,则判定编号为d3的数据异常,不获取其相应的融合数据,
[0137]
当hd3>0时,获取数据相似性判定模块中第一数据编号等于d3的数据编号对及相应数据编号对对应的相似值;
[0138]
s2.3、按第二数据编号从小到达的顺序,逐个将第一数据编号等于d3的数据编号对对应的相似值与第一阈值进行比较,
[0139]
当相似值小于第一阈值时,则判定该相似值对应数据编号对中的第一数据编号对应的数据与第二数据编号对应的数据不相似,两者无法进行融合,
[0140]
当相似值大于等于第一阈值时,则判定该相似值对应的数据编号对中第一数据编号对应的数据与第二数据编号对应的数据能够进行融合;
[0141]
s2.4、得到d3为不同值时,编号为d3的数据相应的融合数据h1d3,
[0142]
所述h1d3={hd3:kd3},其中,kd3为一个集合,hd3与kd3构成键值对,hd3为键对象,kd3为值对象,
[0143]
所述kd3中的每个元素与一个数据编号对相关联,且所述数据编号对中的第一数据编号对应的数据为hd3,且第一数据编号对应的数据与第二数据编号对应的数据能够进行融合,
[0144]
所述kd3中的第n2个元素对应的值记为
[0145]
其中,d4表示kd3中的第n2个元素对应数据编号对中第二数据编号,
[0146]
的底数hd4表示编号为d4的数据对应的值,
[0147]
的上标ed3d4表示编号为d3的数据与编号为d4的数据之间的相似值,
[0148]
每个融合数据对应一个融合值,
[0149]
kd3中各个值中底数的均值与各个值中上标的均值的乘积,所得乘积与键对象的平均值为h1d3对应的融合值。
[0150]
本实施例中若最近一次的第一单位时间内获取的数据分别为28,30,29,第一阈值为获取28对应的融合数据时,
[0151]
28与30的相似值等于
[0152]
28与29的相似值等于
[0153]
因为
[0154]
则29与28能够进行融合,得到融合数据
[0155]
进而得到的融合值为
[0156]
本发明数据融合模块得到融合数据的过程中,s2.2是为了筛选出获取数据中的异常数据,进而锁定获取融合数据的范围;s2.3是为了哪些数据相互之间能够进行融合,即得到融合数据相应的融合条件;s2.4描述的是融合数据的记录形式及相应融合值的计算方式;融合数据采用键值对的形式进行记录是因为两者能够较好的体现出对应关系,且键值对的值对象采用集合的方式,既能够保证融合数据的形式统一,且又不对值对象的长短及大小进行限制;获取h1d3对应的融合值的过程中,kd3中各个值中底数的均值表示能够与d3对应的数据进行融合的各个数据的均值,kd3中各个值中上标的均值表示能够与d3对应的数据进行融合的各个数据分别与hd3的相似值之间的平均值;获取kd3中各个值中底数的均值与各个值中上标的均值的乘积,即得到能够与d3对应的数据进行融合的各个数据之间的融合数,计算的是能够与d3对应的数据进行融合的各个数据之间对应的融合结果,而计算所得乘积与键对象的平均值,是为了得到融合数据与hd3之间的融合结果,即融合值。
[0157]
所述数据融合模块中,kd3中的第n2个元素对应的值记为并不对hd4对应的融合数据产生影响,
[0158]
数据采集模块最近一次采集的第一单位时间内的各个数据经过数据融合模块处理后,可以包含多个融合数据,
[0159]
所述数据融合模块选取值对象为空集的融合数据,将该融合数据中键对象对应的数据与第二阈值区间进行比较,
[0160]
当融合数据中键对象对应的数据在第二阈值区间内时,则判定该融合数据为独立融合数据,
[0161]
当融合数据中键对象对应的数据不在第二阈值区间内时,则判定该融合数据中键对象对应的数据为异常数据。
[0162]
本发明融合数据模块进一步对融合数据进行分析,进而对数据采集模块中的数据的异常情况进行二次判断;独立融合数据对应的融合值等于键对象对应的数据本身。
[0163]
所述数据拆分处理模块包括异常位置确认模块及融合数据拆分模块,
[0164]
所述异常位置确认模块获取数据采集模块最近一次采集的第一单位时间内的各个数据,判断各个数据是否为异常数据,将各个异常数据对应的编号逐个添加到一个空白集合中,得到异常数据位置集合;
[0165]
所述融合数据拆分模块以第二单位时间为周期,获取异常数据位置集合中每个元素对应编号在历史数据中,前n4个周期中分别对应的n4个数据,将获取的n4个数据作为异常数据位置集合中相应元素对应编号的元素集合,按元素对应的编号从小到达的顺序将异常数据位置集合中各个元素分别对应的元素集合进行汇总,得到异常参照量集合,
[0166]
所述异常参照量集合中的每个元素对应一个元素集合,
[0167]
所述融合数据拆分模块获取各个融合数据中键对象对应的编号,对融合数据进行拆分,并结合异常参照量数据集合筛选拆分后的数据,并替换相应的异常数据。
[0168]
本发明数据拆分处理模块中异常位置确认模块得到异常数据位置集合,一方面是为了确定融合数据拆分模块是否需要对融合数据进行拆分,另一方面是为了锁定融合数据拆分模块对融合数据进行拆分的程度(是否需要进行拆分增殖),及判断拆分数据之间的替换优先级;容忍数据拆分模块获取异常参照量集合是为了获取拆分数据之间的替换优先级;获取异常参照量集合的过程中,设置第二单位时间为周期,是为了与上述获取区间差异量c过程中的相对时间进行统一,进而能够在异常数据替换过程中,对拆分数据进行校准。
[0169]
所述融合数据拆分模块对融合数据进行拆分的方法包括以下步骤:
[0170]
s3.1、获取异常数据位置集合中的元素个数m2,
[0171]
若m2=0,则不对融合数据进行拆分,
[0172]
若m2>0,则对融合数据进行拆分;
[0173]
s3.2、获取数据采集模块最近一次采集的第一单位时间内的各个数据经过数据融合模块处理后,且除独立融合数据之外的各个融合数据及相应融合数据中键对象对应的编号;
[0174]
s3.3、获取s3.2中得到的键对象对应编号为j1的融合数据h1j1={hj1:kj1},获取该融合数据中值对象相应集合中各个元素的值;
[0175]
s3.4、获取kj1对应集合中元素的个数m,获取kj1中m-m1个元素构成的组合情况,将每个组合情况中的包含的元素分别对应的值构成一个组合对,所述0≤m1<m;
[0176]
s3.5、每个组合对对应一个拆分数据,所述拆分数据等于相应组合对中各个值中底数的均值与各个值中上标的均值的乘积;
[0177]
s3.6、统计s3.2中得到的所有融合数据相应拆分数据的总和m3,将m3与m2进行比较,
[0178]
当m3>m2时,判定融合数据拆分结束,
[0179]
当m3≤m2时,则进一步对s3.2中得到的所有融合数据进行拆分增殖,将m1对应的值加1,并跳转到s3.3,将增殖的拆分数据个数记为m4,
[0180]
将m3与m4的和与m2进行比较,
[0181]
当m3 m4>m2时,判定融合数据拆分结束,
[0182]
当m3 m4≤m2时,则进一步对s3.2中得到的所有融合数据进行拆分增殖,将m1对应的值加1,并跳转到s3.3;
[0183]
所述拆分增殖过程中,若m-m1<0时,则停止对该m对应的融合数据进行拆分增殖,跳转到下一个融合数据正常执行拆分增殖。
[0184]
本发明融合数据拆分模块对融合数据进行拆分的过程中,s3.1描述的是对融合数据进行拆分的条件;s3.4描述的是对融合数据进行拆分的方式;s3.5描述的是对融合数据中拆分数据的计算方式;s3.6描述的是拆分增殖的判定条件及执行方式;将m3及m3 m4与m2进行比较,是为了确保拆分数据的个数超过异常数据的个数,进而保证拆分数据的样本数足够大,进而使得替换的异常数据的拆分数据精确度更高。
[0185]
所述数据融合拆分模块结合异常参照量数据集合筛选拆分后的数据的方法包括以下步骤:
[0186]
s4.1、获取异常位置确认模块得到的异常数据位置集合,并选取异常数据位置集合中的第j个元素对应的编号及相应编号的数据在异常参照量集合中对应的元素集合;
[0187]
s4.2、获取融合数据中各个组合对相应的拆分数据,并计算各个拆分数据相对于异常数据位置集合中的第j个元素对应数据的归一值,
[0188]
若某拆分数据的值记为hc,该拆分数据对应融合数据中键对象相应编号记为dp,
[0189]
则该拆分数据相对于异常数据位置集合中的第j个元素对应数据的归一值等于
[0190]
其中,wj表示异常数据位置集合中的第j个元素对应的编号的数据在异常参照量集合中对应元素集合中的元素个数,dj表示异常数据位置集合中的第j个元素对应的编号,表示编号为dj的数据在异常参照量集合中对应的元素集合内的第g个元素的值,r为常数,r |dp-dj|>0;
[0191]
s4.3、比较各个拆分数据相对于异常数据位置集合中的第j个元素对应数据的归一值,并按从大到小的顺序对各个归一值进行排序,获取各个拆分数据相对于异常数据位置集合中的第j个元素对应数据的替换优先级,
[0192]
所述每个拆分数据相对于异常数据位置集合中的第j个元素对应数据的替换优先级,与该拆分数据相对于异常数据位置集合中的第j个元素对应数据的归一值的排序序号相等;
[0193]
s4.4、计算相对于异常数据位置集合中的第j个元素对应数据的最高替换优先级的拆分数据的值与c的和,将所得和与0进行比较,判断所得和是否异常,
[0194]
若所得和大于0,则判定所得和正常,并用所得和替换采集模块最近一次采集的第一单位时间内的各个数据中,且与异常数据位置集合中的第j个元素相对应的数据,
[0195]
若所得和小于等于0,则判定所得和异常,按替换优先级从高到低的顺序逐个将各拆分数据的值与c的和与0进行比较,直至得到相应的和大于0的情况,并将该相应的和替换采集模块最近一次采集的第一单位时间内的各个数据中,且与异常数据位置集合中的第j个元素相对应的数据,
[0196]
如果按替换优先级从高到低的顺序逐个将各拆分数据的值与c的和与0进行比较,且得到相应的和均小于等于0时,则采集模块最近一次采集的第一单位时间内的各个数据中,且与异常数据位置集合中的第j个元素相对应的数据不变。
[0197]
本发明数据融合拆分模块结合异常参照量数据集合筛选拆分后的数据的过程中,计算拆分数据相对于异常数据位置集合中的第j个元素对应数据的归一值,是为了后续获取各个拆分数据相对于异常数据位置集合中的第j个元素对应数据的替换优先级,进而实现对拆分数据的有效筛选;s4.4中描述的是对替换优先级较高的拆分数据的有效性进行确定,并对替换优先级较高且无效的拆分数据进行处理;获取拆分数据相对于异常数据位置集合中的第j个元素对应数据的归一值的过程中,计算hc c的和,是为了对拆分数据hc进行校准;计算是为了对校准后的拆分数据与参照量集合中的第g个参照量之间的偏差值;计算是为了获取校准后的拆分数据与参照量集合中的各个参照量之间偏差值的标准差;表示拆分数据位置相对异常数据位置集合
中的第j个元素对应编号位置之间的位置偏差系数,设置位置偏差系数是为了后续求取拆分数据对应的替换优先级,在拆分数据对应的值相同的情况下,拆分数据相对异常数据的位置不同,也会使得对应的归一值不同,进而使得拆分数据对应的替换优先级不同,在归一值相同的情况下,拆分数据对应值较大的拆分数据对应的替换优先级较高;r代表的常数对位置偏差系数起到调节作用,同时还会对相应的归一值产生影响,进而影响拆分数据对应的替换优先级,
[0198]
例如:β1、β2两个拆分数据,β1对应的标准差为0.6,β2对应的标准差为1,
[0199]
β1对应的位置编号与异常数据α对应的编号之间差值的绝对值为1,
[0200]
β2对应的位置编号与异常数据α对应的编号之间差值的绝对值为3,
[0201]
当r=3时,
[0202]
β1对应的位置偏差系数等于
[0203]
β1相对于异常数据α的归一值等于
[0204]
β2对应的位置偏差系数等于
[0205]
β2相对于异常数据α的归一值等于
[0206]
此时,即β2对应的替换优先级高于β1对应的替换优先级;
[0207]
当r=1时,
[0208]
β1对应的位置偏差系数等于
[0209]
β1相对于异常数据α的归一值等于
[0210]
β2对应的位置偏差系数等于
[0211]
β2相对于异常数据α的归一值等于
[0212]
此时,0.3>0.25,即β1对应的替换优先级高于β2对应的替换优先级。
[0213]
一种基于人工智能的大数据采集存储管理方法,所述方法包括以下步骤:
[0214]
s1、数据采集模块用于对数据信息进行采集;
[0215]
s2、数据相似性判定模块用于判断采集数据之间的相似性;
[0216]
s3、数据融合模块将相似信息进行数据融合,得到融合数据及相应的融合值;
[0217]
s4、数据拆分处理模块获取数据采集模块中采集数据中的异常数据,并结合历史数据对融合数据进行拆分,得到相应的拆分数据;
[0218]
s5、数据存储模块获取处理后的采集数据,并将其保存到数据库中。
[0219]
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
[0220]
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
转载请注明原文地址:https://tc.8miu.com/read-4400.html