本发明属于智能能源管理和调度领域,具体涉及一种多充电站智能调度方法及系统。
背景技术:
1、本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
2、随着电动汽车(ev)市场的快速发展,充电站作为电动汽车与电力供应网络之间的关键接口,其重要性日益凸显。充电站不仅为电动汽车提供必要的能量补给,而且在能源分配和供需平衡中扮演着重要角色。然而,电动汽车的充电需求在时间上的随机性给充电站的能源管理带来了挑战,尤其是在充电需求高峰时段。
3、现有技术在电动汽车充电站(evcs)的能源优化问题上,通常采用集中式方法来计算最优的电动汽车充电计划。然而,这些集中式方法在处理大规模动态时变数据时存在明显的局限性。当多个evcs由不同的系统运营商管理时,集中式优化算法不仅计算压力大,而且难以适应运行时数据的快速变化,例如能源存储系统(ess)的状态和电动汽车的充电需求。此外,集中式方法在实时性、适应性和泛化能力方面存在不足,无法有效应对分布式充电站环境中的动态性和不确定性。
4、在光储能源站的电动汽车调度领域,虽然已取得了一定的研究成果,主要集中于开发优化调度策略以适应光伏发电等可再生能源的波动性和不确定性。传统的方法通常涉及建立单目标或多目标的优化模型,同时考虑多个约束条件,如运行成本最小化、负荷曲线匹配、网络损耗降低等。这些模型利用数学规划技术,如动态规划、序列二次规划等,来寻找最优或可行的解决方案。但是,这些传统优化方法在实时调度应用中面临着巨大的计算压力,可能无法满足实时性的要求。此外,这些方法高度依赖于模型的准确性,当实际运行中出现模型未考虑的不确定性因素时,可能会导致优化结果的失效,从而影响算法的鲁棒性和泛化能力。
技术实现思路
1、本发明为了解决上述问题,提出了一种多充电站智能调度方法及系统,本发明通过智能体间的通信协作,实现了充电站的协同能源管理,优化了能耗和运营成本,同时增强了系统对能源供应波动的适应能力和安全性。
2、根据一些实施例,本发明采用如下技术方案:
3、一种多充电站智能调度方法,包括以下步骤:
4、获取待调度的电动汽车充电站的历史数据和实时数据,并进行预处理;
5、依据智能体在每个时间步中的运营指标,构建状态空间;
6、根据智能体在每个时间步可执行的所有可能动作,构建动作空间;
7、创建奖励函数,以评估智能体执行动作时获得的奖励,指导智能体选择最优动作;
8、采用软演员-评论家算法优化马尔可夫决策过程策略,使智能体能够在每个决策周期内选择最优动作;
9、对优化后的智能体决策策略进行训练,利用训练后的智能体决策策略,基于实时数据,进行目标充电站的能源调度。
10、作为可选择的实施方式,所述历史数据包括历史充电需求信息、日期和时间信息、气象信息以及电价信息,用于预测电动汽车充电站在每个时间步的电动汽车充电总需求;
11、所述实时数据包括电动汽车充电站的实时容量、光伏实时发电量、内部实时负载信息和实时电价,以及每个时间步电动汽车的到达时间、充电需求、离开时间和电池容量信息。
12、作为可选择的实施方式,依据智能体在每个时间步中的运营指标,构建状态空间的过程包括:
13、状态空间st由每个智能体在时间步t的状态信息组成,具体为:
14、
15、第n个智能体在t时刻的状态包括:能源存储系统的容量能源存储系统最小安全容量能源存储系统最大安全容量时间步t的电价pt、过去设定时间长度内的平均电价光伏发电量以及预估净能源需求
16、作为进一步的实施方式,所述预估净能源需求的计算过程包括:计算时间步t后续一段时间内,电动汽车充电站的总能源需求该需求由内部能源需求和电动汽车充电能源需求组成:使用长短期记忆网络对历史运行数据进行建模,预测得到ev充电总需求最终得到预估净能源需求
17、作为可选择的实施方式,根据智能体在每个时间步可执行的所有可能动作,构建动作空间的过程包括:
18、动作空间at由每个智能体在时间步t采取的动作组成,表示为:
19、
20、其中表示智能体执行的具体动作,是从充放电动作集合a中选取的,充放电动作的集合a表示为:
21、a={-δu,...,-kδu,...,δu,...,kδu}
22、其中kδu和-kδu分别表示最大充放电电量,δu为最小能源单位,充电意味着智能体从电力公司购买能源,放电意味智能体向电力公司出售多余的能源以赚取收益。
23、作为可选择的实施方式,创建奖励函数,以评估智能体执行动作时获得的奖励,指导智能体选择最优动作的过程中,所述奖励函数从以下方面对动作进行评价:
24、支付能源费用:计算智能体为满足其净能源需求而必须支付的总费用,如果智能体卖出的能源量大于买入的量,获得正奖励;反之则获得负奖励;
25、预充电能收益:当智能体使用存储在能源存储系统中的能源来满足净能源需求时,根据当前电价计算获得的正奖励,鼓励在电价低时充电,在电价高时放电;
26、过度充放电损失:定义损失函数来量化过度充放电的经济成本,激励智能体在充放电过程中遵守安全容量限制;
27、能源共享收益:当智能体通过能源共享从其他充电站获得盈余能源时,计算降低向电力公司购买能源成本的收益;
28、所述奖励函数为上述奖励之和,用于智能体选择动作时的评价依据。
29、作为可选择的实施方式,采用软演员-评论家算法优化马尔可夫决策过程策略的过程包括:
30、通过正态分布随机初始化actor网络、状态价值估计网络和动作-状态价值估计网络的网络参数;
31、构建模拟环境,用于创建经验池,记录智能体与环境交互过程中的状态、动作、奖励和下一状态信息;
32、从经验池中随机采样经验对,通过梯度下降算法更新网络参数,包括actor网络、状态价值估计网络和动作-状态价值估计网络;
33、计算actor网络、状态价值估计网络和动作-状态价值估计网络的损失函数,以优化网络性能;
34、根据损失函数的结果,更新网络参数,以提高智能体的决策质量。
35、作为进一步的,所述actor网络包括输入层、隐藏层和输出层,输入层将状态作为输入,然后转换为中间状态hn,1,隐藏层fn一共有l层,第l层将l-1层的中间状态作为输入,得到新的中间状态hn,l,隐藏层l考虑该智能体的决策信息,同时考虑其他智能体的决策信息;
36、输出层cn将最后一个隐藏层l输出的中间状态hn,l转换为每个动作的概率prn。
37、作为可选择的实施方式,利用训练后的智能体决策策略,基于实时数据,进行目标充电站的能源调度的过程中,智能体实时获取电动汽车充电站的当前状态信息,包括能源存储系统的实时容量、光伏发电量、内部负载信息和实时电价;
38、利用训练好的actor网络,根据当前状态信息,计算每个可能动作的执行概率;
39、从计算出的动作概率中,选择概率最大的动作作为最优决策,并在电动汽车充电站中执行该动作。
40、一种多充电站智能调度系统,包括:
41、数据收集与预处理模块,被配置为获取待调度的电动汽车充电站的历史数据和实时数据,并进行预处理;
42、状态空间构建模块,被配置为依据智能体在每个时间步中的运营指标,构建状态空间;
43、动作空间定义模块,被配置为根据智能体在每个时间步可执行的所有可能动作,构建动作空间;
44、奖励函数设计模块,被配置为创建奖励函数,以评估智能体执行动作时获得的奖励,指导智能体选择最优动作;
45、智能决策优化模块,被配置为采用软演员-评论家算法优化马尔可夫决策过程策略,使智能体能够在每个决策周期内选择最优动作;
46、实时决策执行模块,被配置为对优化后的智能体决策策略进行训练,利用训练后的智能体决策策略,基于实时数据,进行目标充电站的能源调度。
47、一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成上述方法中的步骤。
48、与现有技术相比,本发明的有益效果为:
49、本发明的多充电站智能调度方法,通过与环境的交互学习最优策略,展现出卓越的环境适应性,能够自动调整以应对运营中的不确定性,为充电站提供灵活而鲁棒的能源调度解决方案。该方法通过优化能源使用,有效利用光伏能源,降低运营成本,并巧妙地在电价低时充电、电价高时放电,以最大化经济效益。同时,智能体的决策支持系统提升了能源使用效率,减少浪费,并促进了可再生能源的更广泛应用。
50、本发明采用软演员-评论家算法进行策略优化,确保了智能体能够快速且稳定地在每个决策周期内选择最优动作,增强了面对不同环境时的适应性和稳定性。本发明还增强了系统的安全性,通过避免过度充放电,延长了电池的使用寿命。此外,通过优化多充电站之间的能源共享机制,减少了对外部电网的依赖,提高了系统对能源供应波动的抵抗能力。
51、本发明利用长短期记忆网络(lstm)对历史数据进行建模,提高了电动汽车充电需求预测的精度,为智能调度提供了可靠的数据支持。本发明的方法不依赖于对系统进行精确建模,因此具有更好的泛化能力,能够广泛适用于不同的充电站场景和运行条件。
52、为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
1.一种多充电站智能调度方法,其特征是,包括以下步骤:
2.如权利要求1所述的一种多充电站智能调度方法,其特征是,所述历史数据包括历史充电需求信息、日期和时间信息、气象信息以及电价信息,用于预测电动汽车充电站在每个时间步的电动汽车充电总需求;
3.如权利要求1所述的一种多充电站智能调度方法,其特征是,依据智能体在每个时间步中的运营指标,构建状态空间的过程包括:
4.如权利要求3所述的一种多充电站智能调度方法,其特征是,所述预估净能源需求的计算过程包括:计算时间步t后续一段时间内,电动汽车充电站的总能源需求该需求由内部能源需求和电动汽车充电能源需求组成;使用长短期记忆网络对历史运行数据进行建模,预测得到ev充电总需求最终得到预估净能源需求
5.如权利要求1所述的一种多充电站智能调度方法,其特征是,根据智能体在每个时间步可执行的所有可能动作,构建动作空间的过程包括:
6.如权利要求1所述的一种多充电站智能调度方法,其特征是,创建奖励函数,以评估智能体执行动作时获得的奖励,指导智能体选择最优动作的过程中,所述奖励函数从以下方面对动作进行评价:
7.如权利要求1所述的一种多充电站智能调度方法,其特征是,采用软演员-评论家算法优化马尔可夫决策过程策略的过程包括:
8.如权利要求7所述的一种多充电站智能调度方法,其特征是,所述actor网络包括输入层、隐藏层和输出层,输入层将状态作为输入,然后转换为中间状态hn,1,隐藏层fn一共有l层,第l层将l-1层的中间状态作为输入,得到新的中间状态hn,l,隐藏层l考虑该智能体的决策信息,同时考虑其他智能体的决策信息;
9.如权利要求1所述的一种多充电站智能调度方法,其特征是,利用训练后的智能体决策策略,基于实时数据,进行目标充电站的能源调度的过程中,智能体实时获取电动汽车充电站的当前状态信息,包括能源存储系统的实时容量、光伏发电量、内部负载信息和实时电价;
10.一种多充电站智能调度系统,其特征是,包括: