一种水电站运行数据的智能清洗方法及系统与流程

    专利查询2025-11-28  23


    本发明涉及数据清洗,应用于水电站数据的处理过程中,具体涉及一种水电站运行数据的智能清洗方法及系统。


    背景技术:

    1、智能化水电站是利用先进的信息技术和自动化控制技术对传统水电站进行升级改造的结果,旨在提高其运行效率、安全性和可靠性。通过集成传感器、智能仪表与监控系统,智能化水电站能实时监测水位、水压、水质、电压、电流等多项关键运行参数,实现对设备的远程控制与调节。

    2、智能化水电站还采用了大数据分析与人工智能技术来处理海量的运行数据,预测潜在问题及故障点,提供优化运行策略,以此提升运行效率并降低运营成本。自动化运维则是另一个重要组成部分,它不仅减轻了人力负担,还提高了设备的可靠性和运维效率。此外,通过智能调度和优化控制手段,水电站能够在保证发电需求的同时实现节能减排,减轻对环境的压力。

    3、然而,在实际应用中,智能化水电站也面临着一系列挑战。特别是在日常监控过程中,由于需要对大量的智能化设备进行数据采集,这将带来数据的复杂性和多样性问题。具体而言,当采集的数据量庞大且种类繁多时,可能会出现重复信息、错误信息以及信息不一致的情况。这些问题不仅会使得采集到的数据准确性受到质疑,还会影响基于这些数据做出的决策与操作的有效性。

    4、因此,如何有效解决数据采集过程中的重复信息、错误信息和不一致问题,就成为了智能化水电站发展中亟需攻克的技术难题。解决这一问题对于提高智能化水电站的整体性能、确保其长期稳定运行至关重要。随着物联网、大数据和人工智能技术的不断进步,探索新的方法来应对上述挑战将是未来智能化水电站技术研究的重点方向之一。


    技术实现思路

    1、基于背景技术中的现状,本发明的目的在于解决因数据采集过程中出现的重复信息、错误信息和信息不一致等而导致的水电站运行数据不准确问题,因此提出了一种水电站运行数据的智能清洗方法及系统。本发明的方法在应用后不仅可以保证数据的质量和准确性,还可基于数据验证过程实现后续的数据分析与挖掘,从而更好地确保水电站运行数据的可读性、可修改性和可维护性。

    2、本发明采用了以下技术方案来实现目的:

    3、一种水电站运行数据的智能清洗方法,包括如下步骤:

    4、s1、通过在水电站内部署智能化监控采集设备的方式,获取水电站运行过程中的原始数据;

    5、s2、基于前馈神经网络模型并应用小波变换方式,对获取的原始数据进行数据预处理;

    6、s3、通过构建节点异构模型的方式,对预处理后的原始数据进行编码转换操作,形成用于数据分析与集成的数据格式并暂存;

    7、s4、将多个数据源处获取的多个原始数据集成为一个数据集,对该数据集应用局部相似回归算法lsr和随机森林算法rf,实现数据清洗操作;

    8、s5、对清洗后得到的运行数据进行验证,以可视化方式执行统计分析、逻辑检查、规则检查和数据比较操作;

    9、s6、完成对运行数据的验证后,为运行数据选择预设的存储格式,存储至水电站运行数据库中,等待业务应用的调用。

    10、进一步的,步骤s2中,原始数据的数据预处理过程,包括如下步骤:

    11、s21、执行循环剔除操作,将原始数据输入前馈神经网络模型,由前馈神经网络模型输出原始数据中误差超过预设阈值的数据样本,对该数据样本进行循环剔除;

    12、s22、执行滤波去噪操作,通过滤波处理与去噪处理,将经过循环剔除的原始数据中的杂波信号和噪声信号去除;

    13、s23、执行缺失填补操作,针对经过循环剔除与滤波去噪的原始数据,填补该原始数据中因循环剔除与滤波去噪而产生的缺失值。

    14、进一步的,步骤s4中,针对数据集,数据清洗操作包括如下步骤:

    15、s41、计算数据集中数据样本对应的所有数据点的异常因子大小,得到各数据点的异常值后进行排序处理;

    16、s42、使用高斯混合模型,针对排序后的异常值对应的数据点,按照正常数据样本和异常数据样本的分类来进行聚类操作;将聚类后获得的正常数据样本与异常数据样本的分界线对应的异常值,作为异常判断阈值;

    17、s43、循环对比数据样本中的所有数据点的异常值与异常判断阈值的大小关系,将异常值小于异常判断阈值的数据点对应的数据样本判断为正常数据样本,反之则判断为异常数据样本,并剔除所有异常数据样本,形成数据集中的空白缺失数据样本;基于已包含空白缺失数据样本的数据集与原始状态的数据集,进行缺失数据动态填补操作。

    18、进一步的,在步骤s43之后,缺失数据动态填补操作包括如下步骤:

    19、s44、以原始状态的数据集为对照依据,对其中缺失数据样本的时间长度进行判断,将缺失数据样本的缺失类型分为局部缺失和长期缺失两种;经过异常辨识与剔除操作得到的空白缺失数据样本的缺失类型为局部缺失;

    20、s45、对于局部缺失类型,使用局部相似回归算法lsr进行处理,将缺失处数据样本的前后数据点作为训练数据,建立回归模型并训练,使用回归模型搭载局部相似回归算法lsr,预测并填补局部缺失类型的缺失数据样本;

    21、s46、对于长期缺失类型,使用随机森林算法rf进行处理,设置决策树的数量,将缺失处数据样本的长度区间的前后相近的数据样本整体作为训练数据,建立回归模型并训练,使用回归模型搭载随机森林算法rf,预测并填补长期缺失类型的缺失数据样本。

    22、本发明同时提供一种水电站运行数据的智能清洗系统,包括存储器、处理器及存储在存储器上的计算机程序,所述处理器执行所述计算机程序以实现前述水电站运行数据的智能清洗方法的步骤。

    23、综上所述,由于采用了本技术方案,本发明的有益效果如下:

    24、本发明的智能清洗方法首先通过选择可靠的数据源来保证数据的基础质量,并采取措施确保所采集数据的完整性和准确性。方法中应用了多种技术和相应算法,从而优选执行了数据的去重、修剪、替换、填充、归一化以及缺失值处理等一系列操作,以提升数据质量并确保其正确无误。

    25、此外,通过数据验证步骤,本发明对数据进行字段定义、类型转换及编码转换等工作,有效解决了数据重复与冲突问题,从而便于后续的数据分析与挖掘工作。整个数据清洗过程不仅强化了数据质量与完整性,还能及时发现并纠正数据中的异常和错误情况。

    26、最后,本发明通过选择合适的存储格式与方式来保存清洗后的数据,确保其具备良好的可读性、可修改性以及可维护性,进而大幅度提升了水电站运行数据的实用价值和管理效率。



    技术特征:

    1.一种水电站运行数据的智能清洗方法,其特征在于,包括如下步骤:

    2.根据权利要求1所述的水电站运行数据的智能清洗方法,其特征在于:步骤s2中,原始数据的数据预处理过程,包括如下步骤:

    3.根据权利要求2所述的水电站运行数据的智能清洗方法,其特征在于:步骤s21中,循环剔除操作包括依次进行的样本剔除过程与样本召回过程;

    4.根据权利要求2所述的水电站运行数据的智能清洗方法,其特征在于:步骤s22中,滤波去噪操作中的滤波处理为:在输入的原始数据中,将连续获取的数据样本作为一个固定长度为的数列;当智能化监控采集设备实时获取新的原始数据时,将数列中的首个数据样本去除,然后将剩下的数据样本前移,将新的原始数据对应的数据样本插入至数列尾部,并做算术平均运算,实现滤波处理;

    5.根据权利要求1所述的水电站运行数据的智能清洗方法,其特征在于:步骤s3中,首先使用编码器,对预处理后的原始数据进行编码,其次构建原始数据的节点异构模型,将编码后的原始数据输入节点异构模型中进行转换;在节点异构模型中,共设置个节点,代表原始数据中每个数据样本的规模;将原始数据转换过程中的每次传输任务通过的数据样本个数记为个后,数据传输信道模型表示为下式:

    6.根据权利要求1所述的水电站运行数据的智能清洗方法,其特征在于:步骤s4中,针对数据集,数据清洗操作包括如下步骤:

    7.根据权利要求6所述的水电站运行数据的智能清洗方法,其特征在于:在步骤s43之后,缺失数据动态填补操作包括如下步骤:

    8.根据权利要求1所述的水电站运行数据的智能清洗方法,其特征在于:在步骤s4之前,还执行异常数据预警操作,采用cnn-lstm神经网络预测模型,结合拉依达准则,对得到的运行数据中的异常数据进行预警。

    9.根据权利要求8所述的水电站运行数据的智能清洗方法,其特征在于,异常数据预警操作的具体过程为:获取水电站运行过程中的历史数据,形成历史样本集,作为cnn-lstm神经网络预测模型的输入数据;通过将历史样本集划分为训练集、验证集和测试集的方式,对cnn-lstm神经网络预测模型进行循环训练,训练完成后得到中间模型;

    10.一种水电站运行数据的智能清洗系统,包括存储器、处理器及存储在存储器上的计算机程序,其特征在于:所述处理器执行所述计算机程序以实现权利要求1至9任一项所述水电站运行数据的智能清洗方法的步骤。


    技术总结
    本发明提供一种水电站运行数据的智能清洗方法及系统,涉及数据清洗技术领域,解决了因数据采集过程中出现的重复信息、错误信息和信息不一致等而导致的水电站运行数据不准确问题;方法包括:获取水电站运行过程中的原始数据,基于前馈神经网络模型并应用小波变换方式进行数据预处理;通过构建节点异构模型,对预处理后的原始数据进行编码转换操作,形成用于数据分析与集成的数据格式并暂存;将多个数据源处获取的多个原始数据集成为一个数据集,应用局部相似回归算法LSR和随机森林算法RF,实现数据清洗操作;对清洗后得到的运行数据进行验证并存储;本发明可以有效确保数据的质量和准确性,提升水电站运行数据的实用价值和管理效率。

    技术研发人员:雷凤玲,张超,李明,赵举,陈鳌,李雪,张家治,冯加辉
    受保护的技术使用者:三峡金沙江川云水电开发有限公司
    技术研发日:
    技术公布日:2024/11/26
    转载请注明原文地址:https://tc.8miu.com/read-32283.html

    最新回复(0)