一种基于回声状态网络的二次启发规划多变量污水处理过程控制方法

    专利查询2026-01-03  10


    本发明应用于城市污水处理过程,基于泄露积分型回声状态网络,同时考虑了自适应动态规划处理非线性系统控制问题,实现了多变量的在线控制。


    背景技术:

    1、随着全球淡水资源日益稀缺,有效处理污水成为了众多国家共同面临的重大挑战。污水处理作为缓解这一压力的关键途径,其运行效率与处理效果尤为重要。污水处理过程涉及复杂生化反应,具有高度非线性和不确定性等特征。传统控制方法虽能在一定程度上维持出水水质,但依赖人工操作,难以实时响应环境变化,导致处理效果不稳定,出水水质易超标。因此,研究合适的污水处理过程智能控制策略,实现控制系统的稳定性,保证出水水质稳定达标是污水处理过程亟需解决的问题。对于保证出水水质达标、实现污水处理高效稳定运行至关重要。

    2、在污水处理控制过程中,溶解氧和硝态氮浓度是污水处理系统稳定运行的主要控制变量。目前,多数控制方法能够在稳定工况下实现出水水质的稳定输出。然而,在干扰较大的情况下,溶解氧和硝态氮浓度之间互相影响,且受入水流量波动、污染物浓度变化、温度和ph改变等不可控因素的影响,传统的控制方法难以实现同时对溶解氧和硝态氮浓度的精准控制。

    3、自适应动态规划为解决非线性系统控制问题提供了新途径,能够避免动态规划中的“维度诅咒”。因此,本发明提出一种基于泄露积分型回声状态网络的二次启发规划多变量在线控制策略,可以在保证控制精度达到理想要求的同时,实现出水水质稳定达标。


    技术实现思路

    1、本发明设计了一种基于泄露积分型回声状态网络的二次启发规划多变量控制器(dhp-lesn),实现对溶解氧和硝态氮浓度的跟踪控制。首先结合策略迭代和自适应学习,设计了在线控制框架。其次,利用梯度下降算法对控制框架中的各网络参数进行在线更新。然后,引入李雅普诺夫函数进行稳定性分析,证明了系统误差和相关参数的一致最终有界性。最后,基于bsm1平台进行仿真实验,实验结果验证了所提控制器的有效性和优越性。

    2、本发明具体的技术方案:

    3、步骤2.1:污水处理过程最优控制问题分析:

    4、污水处理过程的最优控制问题可以表示为:

    5、

    6、其中f(·,·)表示未知的函数关系,so,5(k)和sno,2(k)分别表示第五分区溶解氧浓度和第二分区硝态氮浓度,kla5(k)表示氧传递系数,qa(k)表示内回流量,k为任意自然数,n为自然数的集合。因此,溶解氧浓度和硝态氮浓度x(k+1)的变化可视为以下公式:

    7、x(k+1)=f(x(k),v(k)),k∈n (2)

    8、其中x(k)表示矩阵[so,5(k),sno,2(k)]的变化,v(k)表示矩阵[kla5(k),qa(k)]的变化。

    9、假设1:状态x(k)可以从控制系统的第k步观察到。

    10、假设2:假设控制增益矩阵为正定,则

    11、

    12、其中(x(k),v(k))∈r+×r+中的任意值,r+是正实数,det[·]为求矩阵的行列式运算。

    13、定义策略迭代算法中的损失函数j(k)计算公式为:

    14、

    15、其中u(i)为效用函数,λ∈(0,1]中的任意值。效用函数定义为:

    16、

    17、其中x*(k)为x(k)的最优值。根据贝尔曼最优性原理和贪婪算法,最优损失函数j*(k)定义为:

    18、j*(k)=min(u(k)+λj*(k+1)) (6)

    19、其中j*(k+1)是下一时刻的最优损失函数,则最优控制向量v*(k)满足以下公式:

    20、

    21、步骤2.2:确定泄露积分型回声状态网络:

    22、泄露积分型回声状态网络(lesn)具有泄漏积分性质的储备池神经元,已成功用于反馈控制系统。lesn主要有三个层次构成:输入层、储备池和输出层,其网络节点数目分别设定为k,n和m。lesn的输入向量、储备池状态向量、输出向量分别是i(k)、z(k)和y(k)。输入权值矩阵为win∈wn×k中的任意值,储备池状态矩阵为w∈wn×n中的任意值,输出权值矩阵为wout∈w(n+k)×m中的任意值。则lesn的储备池状态向量z(k)和输出向量y(k)更新公式分别为:

    23、z(k)=(1-α)z(k-1)+αf(wini(k)+w(k-1)) (8)

    24、

    25、其中网络参数泄露率α∈(0,1]中的任意值;w(k-1)为前一时刻的储备池矩阵;f(·)表示储备池的激活函数,采用双曲正切函数,增强了网络对非线性环境的处理能力。lesn在初始化之后,仅wout会随着学习过程的进行而发生改变。

    26、步骤2.3:dhp-lesn控制器的在线学习过程:

    27、(1)利用模型lesn对非线性函数f(x(k-1),v(k-1))进行辨识,识别当前状态,并得到系统状态估计xm(k),m是model的缩写,后文出现的m同理。输出表达式如下:

    28、

    29、其中σm(k)=[i(k),z(k)],im(k)=[x(k-1),v(k-1)],wm(k)是模型lesn的权值,zm(k)是模型lesn的储备池状态向量。

    30、因此,(2)给出的误差em(k)变为:

    31、em(k)=xm(k)-x(k) (11)

    32、其中x(k)表示时刻k的输出状态。代价函数em(k)定义为:

    33、

    34、模型lesn输出权值的增量δwm(k)为:

    35、

    36、其中lm是学习率。

    37、(2)使用评判lesn对损失函数求导。评判lesn的表达式定义为:

    38、

    39、其中wc(k)是评判lesn权值,c是critic的缩写,后文出现的c同理。

    40、对式(4)中的等式两边求导,可以得到:

    41、

    42、根据链式推导法则,有:

    43、

    44、根据(8)-(9),有:

    45、

    46、其中αm为模型lesn的泄漏率,f'm为储备池中神经元激活函数的导数,为输入矩阵中处理输入x(k-1)的部分,θm(k)为模型lesn的内部状态,其计算公式为:

    47、

    48、其中和表示模型lesn的输入矩阵和储备池矩阵,im(k)和zm(k)表示模型lesn的输入状态和内部状态,zm(k-1)是模型lesn前一时刻的内部状态。

    49、因此,评判lesn的误差ec(k)可以定义为:

    50、

    51、评判lesn的目标函数ec(k)为:

    52、

    53、同模型lesn的更新方法,评判lesn的输出权值δwc(k)为:

    54、

    55、其中lc是学习率。

    56、(3)在dhp-lesn控制器中,执行lesn用于提供控制器的增量。输出δv(k)的表达式可以表示为:

    57、

    58、其中wa(k)是执行lesn权值,a是actor的缩写,后文出现的a同理。

    59、执行lesn的预期输出δv*(k)是:

    60、

    61、其中μ为步长。

    62、由于评判lesn的输出是结合(8)-(9),我们有

    63、

    64、其中是输入矩阵中处理输入v(k)的部分。由式(25)-式(26)可知,评判lesn的误差ea(k)为:

    65、

    66、评判lesn权值更新的目标函数ea(k)改写为:

    67、

    68、同其他两个网络,执行lesn的输出权重更新δwa(k)改写为:

    69、

    70、其中la是学习率。

    71、步骤2.4:系统稳定性分析

    72、引理1:假设1-2成立。已知[x(k-1),v(k-1)]为模型lesn的输入,结合在线梯度下降算法,定义李雅普诺夫函数l1(k)如下所示:

    73、

    74、其一阶差分函数δl1(k)为:

    75、

    76、其中,且γ1∈(0,∞]中的任意值,σm(k)代表模型lesn的内部状态向量。

    77、证明:l1(k)的一阶差分表达式为:

    78、

    79、已知wm(k)的更新公式,得以求出:

    80、

    81、因此,可以写成:

    82、

    83、结合(35)和(36),可以推算出引理1成立。

    84、引理2:假设1-2成立。已知评判lesn的输入为x(k),因此,对于李雅普诺夫函数l2(k):

    85、的一阶差分函数δl2(k)为:

    86、

    87、其中且γ2∈(0,∞]中的任意值。

    88、证明:l2(k)的一阶差分为:

    89、

    90、根据评判lesn的更新公式,可以推算出:

    91、

    92、为方便书写,将和分别缩写为r(k-1)和px。因此,通过(34)-(35),可知:

    93、

    94、

    95、(41)右边的第三项可以化简为:

    96、

    97、通过cauchy-schwarz不等式,可以计算出:

    98、

    99、通过(41)和(43)可知,引理2成立。

    100、引理3:假设1-2成立。执行lesn的输入为x(k),因此,对于李雅普诺夫函数l3(k):

    101、的一阶差分函数δl3(k)为:

    102、

    103、其中且γ3>0是一个常数因子。

    104、证明:已知l3(k)的一阶差分为:

    105、

    106、通过wa(k)的更新公式可知:

    107、

    108、其中因此,可以计算出:

    109、

    110、(48)等号右边第一项可以简化为:

    111、

    112、结合(48)和(49),可以得到引理3。

    113、步骤2.5:控制性能评价

    114、评价指标主要包括平方误差积分(ise)、绝对误差积分(iae)和最大绝对误差(devmax)。

    115、

    116、devmax=max|r(k)-x(k)| (52)

    117、其中r(k)和x(k)为设定点和系统输出。评价指标主要评价控制器的控制精度和控制量的波动。


    技术特征:

    1.一种基于回声状态网络的二次启发规划多变量污水处理过程控制方法,其特征在于,步骤如下:


    技术总结
    本发明提出了一种基于回声状态网络的二次启发规划多变量控制方法,实现对溶解氧和硝态氮浓度的跟踪控制。首先,基于二次启发规划设计了在线控制框架。其次,利用梯度下降算法实现了控制框架中各网络参数的在线更新。然后,通过李雅普诺夫函数对控制器进行稳定性分析,保证了系统的渐进稳定性。最后,实验结果表明所提控制器能够精准控制溶解氧和硝态氮浓度,保证污水处理过程高效稳定运行。

    技术研发人员:陈鼎元,刘紫琳,杨翠丽,乔俊飞
    受保护的技术使用者:北京工业大学
    技术研发日:
    技术公布日:2024/11/26
    转载请注明原文地址:https://tc.8miu.com/read-33418.html

    最新回复(0)