本发明涉及数据挖掘,具体为大数据挖掘分析治理系统。
背景技术:
1、在当今大数据时代,数据的价值日益凸显。企业和组织需要从各种来源获取大量的数据,包括内部数据库、外部数据源、传感器数据和社交媒体数据等,以支持决策制定、业务优化和创新发展。然而,这些数据往往存在质量问题,如缺失值、异常值和数据不一致等,需要进行预处理才能进行有效地分析和挖掘。
2、根据公开号为cn116578613b公开了一种用于大数据分析的数据挖掘系统,包括:数据预处理模块,基于政务数据识别政务数据中所包含的实体,基于实体之间的关系生成政务数据图谱,并为实体生成实体向量;图生成模块,基于政务数据图谱来生成图矩阵;区域生成模块,将图矩阵均等划分为n个不重叠的子区域;按顺序拼接所有子区域的区域参数生成子区域向量;数据处理模块,其用于将图矩阵、子区域向量和实体向量输入数据编码模型,输出与数据挖掘目标有关的分类标签。
3、上述专利对图矩阵以及采样区域参数的学习来弥补对于实体之间缺失的关联关系,适用于政务大数据的数据挖掘处理,但是针对上述的技术手段,在对数据进行分析的时候存在分析不全面的情况,同时单一的基于关联关系进行分析,存在挖掘不准确的情况。
技术实现思路
1、针对现有技术的不足,本发明提供了大数据挖掘分析治理系统,解决了单一的基于关联关系进行分析,存在挖掘不准确的问题。
2、为实现以上目的,本发明通过以下技术方案予以实现:大数据挖掘分析治理系统,包括:
3、预处理模块,用于对获取的相关数据进行数据预处理,对相关数据进行数据清洗得到清洗数据,同时对清洗数据进行数据集成得到集成数据,接着对集成数据进行标准转化得到预处理数据,并将得到的预处理数据传输到关联计算模块;
4、关联计算模块,用于对获取的预处理数据进行分析,对获取的预处理数据进行同类型分类得到同类型预处理数据,对同类型预处理数据之间的关联性进行分析,得到对应的关联数据包,将关联数据包传输到挖掘模型建立模块;
5、挖掘模型建立模块,用于根据获取的关联数据包建立对应的挖掘模型,将获取的关联数据包进行数据集划分,根据所选的挖掘技术,选择标准的模型参数,使用训练集对模型进行训练,使用测试集对训练好的模型进行评估得到挖掘模型,并采用标准的模型保存格式,同时将挖掘模型传输到挖掘信息输出模块。
6、作为本发明的进一步方案:还包括数据获取模块和挖掘信息输出模块;
7、数据获取模块,用于对相关数据进行获取,同时将获取的相关数据传输到预处理模块;
8、挖掘信息输出模块,用于对挖掘模型进行存储。
9、作为本发明的进一步方案:所述预处理模块对相关数据进行预处理的具体方式为:
10、获取所有的相关数据并标号记作i,且i=1、2、…、j,其中j表示相关数据的数量,接着对相关数据i中存在缺失值的相关数据进行提取并记作缺失数据,同时对缺失数据进行填充。
11、作为本发明的进一步方案:所述预处理模块对缺失数据进行填充的具体方式为:
12、获取所有的缺失数据,并将缺失数据中的非缺失值进行提取,同时将提取的非缺失值进行排序,若非缺失值的数量为奇数,则中位数为排序后的中间值,若非缺失值的数量为偶数,则中位数为中间两个值的平均值;
13、用计算得到的中位数填充该变量中的缺失值,遍历数据集中含有缺失值的变量的每一个数据点,若该数据点为缺失值,则用之前计算得到的中位数替换该缺失值;
14、以此类推,得到清洗数据。
15、作为本发明的进一步方案:所述预处理模块对清洗数据进行集成得到集成数据的具体方式为:
16、获取所有的清洗数据,并将来自多个数据源的清洗数据进行整合,且具体的整合方式为:基于共同的关键字段进行合并,同时对清洗数据中的冗余数据进行去重处理得到集成数据。
17、作为本发明的进一步方案:所述预处理模块对集成数据进行标准化得到预处理数据的具体方式为:
18、获取所有的集成数据,并将集成数据进行量化处理,同时将得到的量化集成数据代入公式进行标准化处理得到预处理数据,且x是原始的量化集成数据,是数据的均值,是数据的标准差。
19、作为本发明的进一步方案:所述关联计算模块对预处理数据进行分析的具体方式为:
20、获取所有的预处理数据记作n,且n=1、2、…、m,其中m表示预处理数据的数量,接着获取预处理数据n对应的数据类型,并按照数据类型将预处理数据进行同类型分类得到同类型预处理数据;
21、对同类型预处理数据之间的关联性进行分析,获取同类型预处理数据中的子数据,并标号记作a,且a=1、2、…、b,其中b表示子数据的数量,接着获取另一组同类型预处理数据对应的子数据,并标号记作o,且o=1、2、…、p,其中p表示另一组子数据的数量,接着对标号为1的子数据a与标号为1的子数据o的关联程度进行计算,如下:其中是a1和o1的协方差,和分别是子数据a1和o1的标准差,由上述公式得到子数据a1和o1对应的皮尔逊相关系数,同时对皮尔逊相关系数进行判断。
22、作为本发明的进一步方案:所述关联计算模块对皮尔逊相关系数进行判断的具体方式为:
23、若皮尔逊相关系数取值为-1,则表示子数据a1和o1完全负相关,若皮尔逊相关系数取值为1,则表示子数据a1和o1完全正相关,若皮尔逊相关系数取值为0,则表示子数据a1和o1无相关,以此类推,按照排列组合的方式进行关联度分析;
24、接着获取存在关联度数据的数量,并计算数量占比值,同时将数量占比值与预设值进行比较,若数量占比值大于预设值,则表示对应的两组同类型预处理数据存在关联,并将二者进行捆绑得到关联数据包,若数量占比值小于预设值,则表示对应的两组同类型预处理数据不存在关联,并不处理;
25、以此类推,对所有同类型数据进行相同的处理,并得到对应的关联数据包,同时将关联数据包传输到挖掘模型建立模块。
26、作为本发明的进一步方案:所述挖掘模型建立模块建立对应的挖掘模型的具体方式为:
27、获取所有的关联数据包括,并进行标号记作k,且k=1、2、…、h,同时将关联数据包按照总数进行预设比例进行数据集划分得到训练集和测试集;
28、接着对得到的训练集和测试集进行核验分析,判断训练集和测试集是否存在不同类别或具有标准的分布特征,若不存在,则不处理,若存在,则进行二次划分处理,且二次划分的具体方式为:根据关联数据包的特点,选择一个或多个变量作为分层的依据,对于每一个分层,按照预定的比例随机抽取关联数据包作为训练集和测试集;
29、采用网格搜索选择标准的模型参数,根据关联数据包的性质和数据的特点,选择标准的挖掘模型,使用训练集对模型进行训练,将准备好的训练集特征数据输入到模型中,模型根据输入数据和目标数据进行学习和优化;
30、使用测试集对训练好的模型进行评估,同时采用均方误差对挖掘模型进行优化,使用标准的模型保存格式模型参数保存下来,生成挖掘模型。
31、本发明提供了大数据挖掘分析治理系统。与现有技术相比具备以下有益效果:
32、本发明通过对数据进行预处理,有效地处理了数据中的缺失值、冗余数据等问题,提高了数据质量,对同类型预处理数据进行关联性分析,通过计算关联度和判断相关系数,能够准确地发现数据之间的潜在关系,根据关联数据包建立挖掘模型,通过合理的数据集划分、参数调优和模型训练评估,提高了模型的性能和泛化能力。采用神经网络挖掘模型,并结合前向传播和反向传播算法进行优化,能够更好地处理复杂的数据关系,利用模型进行挖掘分析,能够提高数据挖掘的全面性。
1.大数据挖掘分析治理系统,其特征在于,包括:
2.根据权利要求1所述的大数据挖掘分析治理系统,其特征在于,还包括:数据获取模块和挖掘信息输出模块;
3.根据权利要求1所述的大数据挖掘分析治理系统,其特征在于,所述预处理模块对相关数据进行预处理的具体方式为:
4.根据权利要求3所述的大数据挖掘分析治理系统,其特征在于,所述预处理模块对缺失数据进行填充的具体方式为:
5.根据权利要求1所述的大数据挖掘分析治理系统,其特征在于,所述预处理模块对清洗数据进行集成得到集成数据的具体方式为:
6.根据权利要求1所述的大数据挖掘分析治理系统,其特征在于,所述预处理模块对集成数据进行标准化得到预处理数据的具体方式为:
7.根据权利要求1所述的大数据挖掘分析治理系统,其特征在于,所述关联计算模块对预处理数据进行分析的具体方式为:
8.根据权利要求7所述的大数据挖掘分析治理系统,其特征在于,所述关联计算模块对皮尔逊相关系数进行判断的具体方式为:
9.根据权利要求7所述的大数据挖掘分析治理系统,其特征在于,所述挖掘模型建立模块建立对应的挖掘模型的具体方式为: