本发明属于电网调度领域,涉及一种电网优化调度方法及相关装置。
背景技术:
1、随着人工智能不断演进,已成为引领第四次工业革命的通用性技术,充分渗透到各个行业并不断融合发展。在调控领域,许多学者在调度运行辅助决策、新能源预测及安全稳定分析等方面应用人工智能技术开展了大量的研究和实践。尤其是以深度强化学习为代表的自主学习模型已成为解决各类优化决策类问题的主流方法。有学者提出基于深度强化学习的分散式就地电压管控方法,实现了在量测数据不足的情况下不依赖通信的多智能体就地分散式无功电压管控,有效地抑制电压波动,防止节点电压越限。有学者提出了基于深度强化学习的双智能体静态安全预防控制动作自动生成方法。设计了集中式训练的pq解耦双智能体结构,由两个智能体分别承担发电机有功功率调整和电压调整任务,实现电力系统静态安全预防控制。有学者提出考虑新能源不确定性和电价的电动汽车充电调度方法,该方法建立了最优调度动作的节点多目标模型,并采用基于柔性动作评价算法进行求解,实现了大规模电动汽车充电调度动作快速计算。
2、在连续时间尺度的优化调度中,深度强化学习算法相比模型驱动算法因其无需精确建模和迭代求解的特点被广泛应用于解决复杂场景调度问题。有学者提出一种基于约束强化学习算法的综合能源系统动态能量调度方法,有效地约束机组输出,实现系统运行安全调度。针对电力系统的数据规模日益增长的特点,许多研究在训练效率、稳定性等方面对强化学习算法进行了改进。有学者提出融合电网运行场景聚类的多任务深度强化学习优化调度方法,通过辨识有限运行数据的场景类别,进而调用模型快速求解实时调度任务,实现随机场景下的多任务优化调度。有学者采用基于多智能体深度强化学习的分布式优化调度思想,将集中调度模型转换为多智能体间的分布式优化问题进行求解,提升训练速度和适用范围。
3、然而,上述现有的基于强化学习的电网调度方法存在以下不足。首先,缺乏对未来调度时间段内总收益的拟合估计,对于预判未来运行趋势的能力不足。尤其是在新能源高比例接入的情况下,电网运行的不确定性增加,使得传统方法难以准确捕捉电网的动态变化。在日内优化调度过程中,调度动作的制定通常需要考虑到未来一段时间内的变化。然而,现有方法往往缺乏对这一点的深入考虑,导致调度动作可能不是最优的,无法充分利用电网资源,实现经济效益最大化。此外,对复杂场景的适应性不强,智能电网运行过程中,会面临各种复杂场景,如新能源波动、设备故障及极端天气等,现有的调度方法在处理这些复杂场景时,往往难以找到有效的应对动作,导致电网运行的安全性和稳定性受到威胁。
技术实现思路
1、本发明的目的在于克服上述现有技术的缺点,提供一种电网优化调度方法及相关装置。
2、为达到上述目的,本发明采用以下技术方案予以实现:
3、本发明第一方面,提供一种电网优化调度方法,包括:获取电网的当前运行状态;将电网的当前运行状态,输入至预训练的基于多对抗强化学习的电网优化调度模型,得到电网的当前运行状态调整动作;其中,基于多对抗强化学习的电网优化调度模型通过将深度确定性动作梯度模型中评论家网络在训练时的目标q值修改为即时奖励和电网未来潜在奖励预测值之和得到;其中,电网未来潜在奖励预测值基于训练时电网的运行状态和日内运行状态调整动作,采用预训练的生成式多对抗网络模型预测得到。
4、可选的,所述预训练的生成式多对抗网络模型在预训练时:生成式多对抗网络模型的生成器的优化目标y*为:
5、y*=arg minymaxdv(y)
6、其中,y为生成式多对抗网络模型的生成器,d为生成式多对抗网络模型的鉴别器,v(y)为以生成器为变量所求的该散度。
7、可选的,所述v(y):
8、
9、其中,λ为调节融合程度的参数,ωi为第i个鉴别器的融合程度权重,i为鉴别器的总数,v'i(di,y)为通过第i个鉴别器与生成器求出的散度;
10、
11、其中,rt为从开始到t时刻的累积奖励分数,z是预定义的简单分布,其分布为z~pz,y(z,[st,at])为以z和[st,at]为变量所求的该散度,st为智能体状态空间,at为智能体动作空间,e[·]为期望,r~pr为奖励分数概率分布。
12、可选的,所述预训练的生成式多对抗网络模型在预训练时:通过随机梯度下降的方式更新生成式多对抗网络模型的模型参数。
13、可选的,所述预训练的基于多对抗强化学习的电网优化调度模型在预训练时:基于预设的历史经验提取数量,结合好历史经验提取比例从历史经验池的好历史经验子池中提取好历史经验,并结合坏历史经验提取比例从历史经验池的坏历史经验子池中提取坏历史经验;以及根据提取的好历史经验和坏历史经验进行多对抗强化学习的电网优化调度模型的预训练。
14、可选的,还包括:基于预设的即时奖励阈值,将历史经验池中即时奖励大于即时奖励阈值的历史经验划分为好历史经验,并将历史经验池中即时奖励不大于即时奖励阈值的历史经验划分为坏历史经验,得到好历史经验子池和坏历史经验子池。
15、本发明第二方面,提供一种电网优化调度系统,包括:数据获取模块,用于获取电网的当前运行状态;优化调度模块,用于将电网的当前运行状态,输入至预训练的基于多对抗强化学习的电网优化调度模型,得到电网的当前运行状态调整动作;其中,基于多对抗强化学习的电网优化调度模型通过将深度确定性动作梯度模型中评论家网络在训练时的目标q值修改为即时奖励和电网未来潜在奖励预测值之和得到;其中,电网未来潜在奖励预测值基于训练时电网的运行状态和日内运行状态调整动作,采用预训练的生成式多对抗网络模型预测得到。
16、可选的,所述预训练的基于多对抗强化学习的电网优化调度模型在预训练时:基于预设的历史经验提取数量,结合好历史经验提取比例从历史经验池的好历史经验子池中提取好历史经验,并结合坏历史经验提取比例从历史经验池的坏历史经验子池中提取坏历史经验;以及根据提取的好历史经验和坏历史经验进行多对抗强化学习的电网优化调度模型的预训练。
17、本发明第三方面,提供一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述电网优化调度方法的步骤。
18、本发明第四方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述电网优化调度方法的步骤。
19、与现有技术相比,本发明具有以下有益效果:
20、本发明电网优化调度方法,基于电网的当前运行状态,通过预训练的基于多对抗强化学习的电网优化调度模型,得到电网的当前运行状态调整动作,实现电网优化调度。其中,基于多对抗强化学习的电网优化调度模型通过将深度确定性动作梯度模型中评论家网络在训练时的目标q值修改为即时奖励和电网未来潜在奖励预测值之和得到,并且电网未来潜在奖励预测值基于训练时电网的运行状态和日内运行状态调整动作,采用预训练的生成式多对抗网络模型预测得到,通过引入生成式多对抗网络模型对未来全部决策时刻内运行状态进行预感知并作为评论家网络在训练时的目标q值的一部分,进而可以有效弥补传统强化学习中评论家网络仅对下一步目标收益评估拟合的缺点,提升基于多对抗强化学习的电网优化调度模型对未来运行趋势预判能力,实现电网调度的全时刻综合考虑,能够更好地适应电网波动情况及复杂场景。
1.一种电网优化调度方法,其特征在于,包括:
2.根据权利要求1所述的电网优化调度方法,其特征在于,所述预训练的生成式多对抗网络模型在预训练时:
3.根据权利要求2所述的电网优化调度方法,其特征在于,所述v(y):
4.根据权利要求2所述的电网优化调度方法,其特征在于,所述预训练的生成式多对抗网络模型在预训练时:
5.根据权利要求1所述的电网优化调度方法,其特征在于,所述预训练的基于多对抗强化学习的电网优化调度模型在预训练时:
6.根据权利要求5所述的电网优化调度方法,其特征在于,还包括:
7.一种电网优化调度系统,其特征在于,包括:
8.根据权利要求7所述的电网优化调度系统,其特征在于,所述预训练的基于多对抗强化学习的电网优化调度模型在预训练时:
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述电网优化调度方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述电网优化调度方法的步骤。