本发明涉及一种车辆驾驶控制方法,尤其涉及一种基于sac算法的燃料电池汽车生态驾驶协同控制方法。
背景技术:
1、氢气具有高热值、清洁无碳的特点,被视为解决全球能源和环境问题的关键能源,而且,加氢速度快、转化效率高,是燃料电池汽车(fcvs)的主要动力源,这使得fcvs兼具内燃机汽车和电动汽车的优点,是未来最有前景的新能源车型。
2、但是,fcvs在负载急剧变化时,反应气体的响应会滞后于功率需求,同时单向的功率输出导致其无法回收再生制动能量,为了解决该技术问题,fcvs通常以超级电容或动力电池作为辅助动力源,构成混合动力系统。
3、由于多种能量源增加了系统复杂性,因此一款稳定、高效及可靠的能源管理策略对提升燃料电池汽车性能尤为关键;通常能源管理是在特定车速下优化动力系统能量分配,导致其节能效果有限;同时驾驶环境的复杂性和不确定性对能源管理的性能有着巨大影响。
4、因此,为了解决上述技术问题,亟需提出一种新的技术手段。
技术实现思路
1、有鉴于此,本发明的目的是提供一种基于sac算法的燃料电池汽车生态驾驶协同控制方法,能够基于目标燃料电池车辆的实际状态信息以及跟车信息来确定燃料电池汽车的功率分配状态,从而决策出整车的加速度和动力系统的输出功率,从而有效实现生态驾驶与车辆跟随的协同控制。
2、本发明提供的一种基于sac算法的燃料电池汽车生态驾驶协同控制方法,包括以下步骤:
3、获取目标车辆状态信息,并基于车辆状态信息确定目标车辆的控制需求信息;
4、在控制器中构建基于sac的神经网络,包括生态驾驶的状态空间、动作空间,并基于控制需求信息确定奖励函数;
5、将目标车辆的状态信息输入至基于sac的神经网络中进行离线训练,并获取目标车辆的实时状态信息并输入至训练完成的sac神经网络中确定出最优控制策略。
6、进一步,所述目标车辆状态信息包括目标车辆与目标车辆的前车之间的跟车距离、目标车辆的车速、目标车辆的前车速度、目标车辆的燃料电池堆的soc以及目标车辆的燃料电池堆的输出功率。
7、进一步,所述控制需求信息包括目标车辆相对于前车的跟随距离模型、目标车辆的驱动电机模型、动力电池模型、燃料电池堆电化学模型以及燃料电池堆寿命模型。
8、进一步,目标车辆相对于前车的跟随距离模型为:
9、d(t+1)=d(t)+vrel(t)δt;
10、vrel(t)=vp(t)-vh(t);
11、
12、其中:d(t+1)表示t+1时刻的目标车辆与前车之间的跟车距离,d(t)表示t时刻的目标车辆与前车之间的跟车距离,d1表示目标车辆制动后的最小跟车距离,d2表示制动后的目标车辆的最大跟车距离,τ1和τ2均表示制动系统的相应时间,a1和a2均表示目标车辆的制动加速度,vh表示目标车辆的车速,vrel(t)表示目标车辆与前车之间的相对速度,和分别表示目标车辆的期望跟车距离区域的上限和下限,vp(t)为目标车辆的前车车速,dmax和dmin表示最大跟车距离和最小跟车距离,α表示调整系数。
13、进一步,目标车辆的驱动电机模型为:
14、
15、其中:preq为目标车辆的整车需求功率,m、g和f分别为整车质量、重力加速度和滚动阻力系数,cd为空气阻力系数,a和δ分别为迎风面积和旋转质量换算系数,μ为道路坡度;pmot为电机需求功率,pfc_net和pbat分别为燃料电池堆净功率和蓄电池输出功率,ηmot为电机效率。
16、进一步,动力电池模型为:
17、
18、其中:vbat表示动力电池的电压,voc、ibat和rbat分别代表动力电池开路电压、电池电流和内阻,pbat为电池功率,socin代表动力电池soc初始值,qbat代表动力电池标称容量。
19、进一步,燃料电池堆电化学模型为:
20、
21、其中:tfc、r和f分别代表燃料电池堆的温度、气体常数以及法拉第常数,ph2和po2分别为燃料电池堆的阳极氢气分压和阴极氧气分压;v0表示零电流密度下的电压,i为电流密度,i=i/acell,i和acell分别表示燃料电池堆电流和电池的有效面积,va和c2为常数,c1和c3为常数,rohm为内部电阻。
22、进一步,燃料电池堆寿命模型为:
23、δdfc=kp[dlow(t)+dhigh(t)+dload-change(t)+dstart-stop(t)];
24、
25、其中:δdfc为单个时间步长内燃料电池的性能衰退率,plow和phigh代表燃料电池的低功率阈值和高功率阈值,|δp|表示上个时间步长燃料电池输出功率与当前时刻输出功率差值的绝对值;kp为道路修正系数,ki(i=1,2,3,4)代表每一类工况的衰退系数,k1取1.26×10-3,k2取1.47×10-3,k3取9.88×10-7,k4取1.96×10-3。
26、进一步,构建基于sac的神经网络具体包括:
27、所述基于sac的神经网络为裁剪双q-学习网络,包括4个参数化的软q-函数qθ(st,at)和1个策略函数πφ(at|st);
28、构建状态空间st:st=[d(t),vh(t),vrel(t),soc(t),pfc(t)];
29、构建动作空间:
30、且加速度和跟车距离约束为:
31、
32、构建奖励函数:
33、
34、其中:为权重系数,表示车辆跟随成本cacc与能量管理成本cems之间的相对重要性,cacc由跟车距离成本csafe和加加速度成本cjerk以及碰撞惩罚项ccollision构成,δ1、δ2为cjerk和ccollision的权重系数,cprice表示燃料电池堆soh下降和氢耗等价的价格成本,cfc,tem表示燃料电池堆过温惩罚,csoc表示动力电池soc维持成本,λ1、λ2为cfc,tem和csoc的权重系数,ph2和pfc分别是氢气和燃料电池堆的单价,tfc,ref和socref表示燃料电池堆目标温度参考值和锂电池soc维持参考值。
35、进一步,将目标车辆的状态信息输入至基于sac的神经网络中进行离线训练具体包括:
36、初始化算法的超参数、软q网络参数θ1、θ2和θ′1、θ′2以及策略网络参数φ;
37、获取目标车辆的状态信息并输入至基于sac的神经网络中;
38、基于sac的神经网络根据状态st给出相应的动作at,动力系统执行相应的功率输出;
39、返回下一时刻状态st+1和奖励rt,将得到的元组(st,at,rt,st+1)放入经验回放池;
40、基于sac的神经网络的最优策略函数j(π*)可由下式表示:
41、
42、其中:t表示控制器与环境的数据交互的总时长;e表示数学期望,st和at分别表示t时刻的状态和动作,ρπ为最优策略π*下的轨迹分布,γ表示奖励的折扣因子,r(st,at)指状态动作对获得的奖励,πφ表示参数为φ的策略函数,-logπφ(at|st)表示动作at在当前状态下的熵;α为温度系数;
43、软q-函数的更新目标为最小化软贝尔曼残差:
44、
45、其中(st,at,rt,st+1)是采样自经验回放池d的元组,θ′表示目标软q-函数的网络参数;为了避免q值的过估计,则评估软q网络的损失函数由下式表示:
46、
47、其中评估网络和目标网络由两组网络构成,其参数可分别表示为θ1、θ2和θ′1、θ′2;在训练过程中,选择q值较低的目标网络对评估网络进行更新,同时,目标软q网络参数以软更新的方式进行替换:
48、θ′i|i=1,2=δθi+(1-δ)θ′i
49、其中,δ为软更新因子;
50、策略网络的损失函数由下式表示:
51、
52、本发明的有益效果:通过本发明,能够基于目标燃料电池车辆的实际状态信息以及跟车信息来确定燃料电池汽车的功率分配状态,从而决策出整车的加速度和动力系统的输出功率,从而有效实现生态驾驶与车辆跟随的协同控制,使得行车过程中具有良好的跟车性能以及舒适性,而且降低了燃料电池堆的soh衰退,使得燃料电池汽车具有良好的工况适应性。
1.一种基于sac算法的燃料电池汽车生态驾驶协同控制方法,其特征在于:包括以下步骤:
2.根据权利要求1所述基于sac算法的燃料电池汽车生态驾驶协同控制方法,其特征在于:所述目标车辆状态信息包括目标车辆与目标车辆的前车之间的跟车距离、目标车辆的车速、目标车辆的前车速度、目标车辆的燃料电池堆的soc以及目标车辆的燃料电池堆的输出功率。
3.根据权利要求1所述基于sac算法的燃料电池汽车生态驾驶协同控制方法,其特征在于:所述控制需求信息包括目标车辆相对于前车的跟随距离模型、目标车辆的驱动电机模型、动力电池模型、燃料电池堆电化学模型以及燃料电池堆寿命模型。
4.根据权利要求3所述基于sac算法的燃料电池汽车生态驾驶协同控制方法,其特征在于:目标车辆相对于前车的跟随距离模型为:
5.根据权利要求3所述基于sac算法的燃料电池汽车生态驾驶协同控制方法,其特征在于:目标车辆的驱动电机模型为:
6.根据权利要求3所述基于sac算法的燃料电池汽车生态驾驶协同控制方法,其特征在于:动力电池模型为:
7.根据权利要求3所述基于sac算法的燃料电池汽车生态驾驶协同控制方法,其特征在于:燃料电池堆电化学模型为:
8.根据权利要求3所述基于sac算法的燃料电池汽车生态驾驶协同控制方法,其特征在于:燃料电池堆寿命模型为:
9.根据权利要求3所述基于sac算法的燃料电池汽车生态驾驶协同控制方法,其特征在于:构建基于sac的神经网络具体包括:
10.根据权利要求9所述基于sac算法的燃料电池汽车生态驾驶协同控制方法,其特征在于:将目标车辆的状态信息输入至基于sac的神经网络中进行离线训练具体包括:
