本发明涉及节能控制,特别是涉及一种基于深度强化学习的密闭环境节能控制方法、装置、设备及存储介质。
背景技术:
1、在科技日新月异的时代背景下,社会文明不断进步,公众对于生活品质的期许也日益提升。特别是在封闭环境如家庭、办公区域及仓储空间内,空调设备已成为确保环境舒适度的关键设施。传统的空调控制策略主要包括温度恒定调控、定时开关以及智能自动调节等。其中,温度恒定调控通过设定固定温度值来实现,其优点是控制简易且最终温度稳定,但能耗相对较高,且存在实际温度与设定值偏差的风险,如夏季26℃与春秋两季同档位下的实际温度差异。
2、定时开关策略则通过预设时间段开启或关闭空调,以达成节能效果。相较于温度恒定调控,该方法在节能方面更具优势,操作亦相对简便。然而,定时开关策略未能充分考虑实际温度需求的变化,可能导致在不需要时空调仍然运行,或在需要时关闭,从而造成能源的不必要浪费。若定时设置不当,还可能引发空调长时间过度运行(如无人使用时)或运行不足(如用户返回前空调未启动),进而影响能源效率和节能成效。
3、智能自动调节模式则根据封闭空间内的温度传感器数据动态调整空调运行档位,是三种策略中技术含量最高且最为节能的方式。它能够根据实际状况灵活调整空调工作状态,有效避免能源的不必要消耗。通过动态调控温度和风速,可在不同环境下提供更为舒适的温度。然而,此模式在温度调控过程中,当实际温度高于或低于设定值时,仅简单地调整至高于或低于预设温度的档位,未能全面考虑当前档位对后续调控的影响,即未采用最优化的档位控制策略,导致能源浪费。
技术实现思路
1、本发明旨在至少解决现有技术中存在能源浪费的技术问题,特别创新地提出了一种基于深度强化学习的密闭环境节能控制方法。
2、为了实现本发明的上述目的,本发明提供了一种基于深度强化学习的密闭环境节能控制方法,所述方法包括:
3、s1、搭建深度强化学习模型,并对所述深度强化学习模型进行预训练;
4、s2、获取基准能耗,并对所述基准能耗进行定时更新;
5、s3、获取空调各个挡位调控的状态数据,并对所述状态数据进行预处理;
6、s4、将所述状态数据输入至深度强化学习模型中,获取空调各个挡位的预测评分,并选取得分最高的挡位作为最佳调控挡位;
7、s5、采集密闭环境的温度数据,当所述温度数据大于阈值时,则启动兜底调控温度,并获取兜底调控温度时的兜底状态数据;
8、s6、将所述兜底状态数据发送至所述深度强化学习模型,对所述深度强化学习模型进行再训练;
9、s7、利用所述基准能耗和奖励函数对所述深度强化学习模型的预测结果进行奖励评估,根据所述奖励评估结果利用损失函数对所述深度强化学习模型进行迭代优化。
10、s8、当到达所述基准能耗更新时间时,重新获取基准能耗,并继续执行步骤s3到步骤s7。
11、作为本发明的一种可选实施例,可选的,所述奖励函数的表达式为:
12、
13、
14、其中,表示总体收益值,表示在次调控时得到的奖励值,表示总调控次数,表示衰减因子,,表示第次调控次数,表示第调控时衰减因子的值,表示奖励值,表示当前空调能耗,表示基准能耗。
15、作为本发明的一种可选实施例,可选的,所述损失函数的表达式为:
16、
17、其中,表示损失值,表示预测评分,表示奖励值。
18、作为本发明的一种可选实施例,可选的,所述状态数据包括当前调控档位数据、当前室外温度数据、当前室外湿度数据、上一次调控到当前挡位的能耗数据、当前室内温度数据、当前室内湿度数据、当前空调功率数据、当前时间点、上一次调控时室内温度数据、上一次调控时室内湿度数据和上一次调控时空调功率数据。
19、作为本发明的一种可选实施例,可选的,所述深度强化学习模型的表达式为:
20、
21、
22、
23、
24、其中,表示预测评分,表示深度强化学习模型,表示分线性分段函数,表示权重,表示深度学习模型输入的数据,表示偏置,表示当前调控档位数据,表示当前室外温度数据,表示当前室外湿度数据,表示当前室内温度数据,表示当前室内湿度数据,表示当前空调功率数据,表示上一次调控时室内温度数据,表示上一次调控时室内湿度数据,表示上一次调控时空调功率数据,表示当前时间点,表示数据集合,表示挡位1的预测得分,表示挡位的预测得分。
25、另一方面本发明还提供一种基于深度强化学习的密闭环境节能控制装置,所述装置包括:
26、采集模块,用于采集空调各个挡位调控的状态数据,并定时采集基准能耗和储存所述状态数据;
27、预处理模块,与所述采集模块连接,用于对所述状态数据进行预处理;
28、评分计算模块,与所述预处理模块连接,用于计算空调各个挡位的预测评分,并选出所述预测评分最高的最佳调控挡位;
29、温度监控模块,与所述评分计算模块连接,用于采集密闭环境的温度数据,当所述温度数据大于阈值时,则启动兜底调控温度,并获取兜底调控温度时的兜底状态数据,将所述兜底状态数据发送至评分计算模块,对所述评分计算模块进行优化。
30、本发明的有益效果在于,通过利用损失函数、奖励函数和定时调整的基准能耗对深度强化学习模型进行不断学习和迭代优化,从而实现对密闭环境的节能控制,并优化空调调控策略。这种方法不仅提高了能源利用效率,降低了能源消耗,还提高了用户的使用体验。此外,在兜底调控方面,本发明通过设置温度监控模块,当密闭环境温度超过设定阈值时,自动启动兜底调控温度,并获取兜底调控温度时的兜底状态数据,用于对评分计算模块进行优化。这种兜底调控机制能够在极端情况下保证环境的舒适度,同时又能够通过不断学习和优化,提高整体调控的效果。
31、本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
1.一种基于深度强化学习的密闭环境节能控制方法,其特征在于,所述方法包括:
2.如权利要求1所述的一种基于深度强化学习的密闭环境节能控制方法,其特征在于,所述奖励函数的表达式为:
3.如权利要求1所述的一种基于深度强化学习的密闭环境节能控制方法,其特征在于,所述损失函数的表达式为:
4.如权利要求1所述的一种基于深度强化学习的密闭环境节能控制方法,其特征在于,所述状态数据包括当前调控档位数据、当前室外温度数据、当前室外湿度数据、上一次调控到当前挡位的能耗数据、当前室内温度数据、当前室内湿度数据、当前空调功率数据、当前时间点、上一次调控时室内温度数据、上一次调控时室内湿度数据和上一次调控时空调功率数据。
5.如权利要求4所述的一种基于深度强化学习的密闭环境节能控制方法,其特征在于,所述深度强化学习模型的表达式为:
6.如权利要求1所述的一种基于深度强化学习的密闭环境节能控制方法,其特征在于,在步骤s3中对所述状态数据进行预处理包括:
7.如权利要求1所述的一种基于深度强化学习的密闭环境节能控制方法,其特征在于,所述方法还包括将所述状态数据进行封装,并储存。
8.一种基于深度强化学习的密闭环境节能控制装置,其特征在于,所述装置包括:
9.一种计算机设备,其特征在于,包括:
10.一种计算机可读存储介质,其特征在于,包括:
