一种基于增量在线学习的飞行器智能控制方法与流程

    专利查询2022-07-09  142



    1.本发明涉及一种基于增量在线学习的飞行器智能控制方法,属于飞行器智能控制技术领域。


    背景技术:

    2.飞行器飞行过程中面临着飞行环境复杂、任务类型多变、态势突变等强不确定条件下的控制问题,传统控制方法的控制律形式的推导及控制参数的设计均依赖较完善、较确定的模型信息,且设计多需基于某一固定飞行剖面,在飞行器由于任务决策、轨迹在线规划导致飞行状态相较于标称条件偏离较大时,传统控制方法适应能力差,难以满足控制要求。
    3.传统智能控制方法执行不同任务时需要对智能控制器进行针对性的训练,此外每次训练将遗忘已获得知识,仅可获得适应当前任务的智能控制器,无法满足飞行器在线飞行时任务变更的控制需求,无法应对飞行过程中的突发状况。
    4.因此,亟待开发一种可实现飞行器控制能力在线提升的新型控制方法。


    技术实现要素:

    5.为解决背景技术中存在的问题,本发明提供一种基于增量在线学习的飞行器智能控制方法。
    6.实现上述目的,本发明采取下述技术方案:一种基于增量在线学习的飞行器智能控制方法,所述方法包括如下步骤:
    7.s1:设计线下训练;
    8.s2:调整线上增量。
    9.与现有技术相比,本发明的有益效果是:
    10.本发明采用基于弹性权重合并的增量学习方法进行飞行器动力参数辨识神经网络的在线增量调整,实现了飞行器参数辨识网络能力在线提升;基于在线增量调整的飞行器参数辨识网络输出结果进行模型参考滑模自适应控制器设计,可有效提升飞行器对突发态势与强不确定性的适应能力,实现飞行器在线高精度控制,克服了现有控制方法适应性不足,可实现飞行器在线飞行控制能力的提升,增强飞行器控制系统的适应性与智能化程度。
    附图说明
    11.图1是本发明的流程图;
    12.图2是本发明的模型参考自适应控制器框图。
    具体实施方式
    13.下面将结合本发明实施例中的附图,对本发明中的技术方案进行清楚、完整地描
    述,显然,所描述的实施例仅是发明的一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
    14.一种基于增量在线学习的飞行器智能控制方法,所述方法包括如下步骤:
    15.s1:设计线下训练;
    16.s101:收集飞行器历史飞行数据集,构建飞行器动力参数辨识神经网络,并利用训练样本进行训练,获得可在线使用的飞行器动力参数辨识神经网络;
    17.s10101:收集飞行器历史飞行数据集,分别构建飞行器俯仰通道、偏航通道以及滚转通道的动力参数辨识样本库;
    18.s10102:建立全连接神经网络,采用梯度下降方法利用样本库进行飞行器俯仰通道、偏航通道以及滚转通道的动力参数辨识网络训练,即获得可在线使用的飞行器动力参数辨识神经网络。
    19.以俯仰通道为例,网络输入为飞行器位置矢量、速度矢量、飞行高度、马赫数以及攻角,输出为俯仰通道动力系数。
    20.s1010201:激活函数:为避免使用梯度下降算法对神经网络进行优化时出现梯度消失现象,本发明采用线性整流函数f(x)=max(0,x)作为隐藏层的激活函数,以提高神经网络的优化效率;
    21.s1010202:损失函数:选择均方误差(mse)作为损失函数:
    [0022][0023]
    式(1)中:
    [0024]
    表示模型预测值;
    [0025]
    表示模型实际值;
    [0026]
    n表示样本数;
    [0027]
    s1010203:优化函数:选择学习率可自适应变化的adam算法进行神经网络的训练优化。
    [0028]
    s102:基于飞行器特性设计参考模型滑模控制器,设计参考模型、状态空间模型与模型参考自适应控制器。
    [0029]
    s10201:设计参考模型:
    [0030]
    对飞行器而言,其动态特性符合传统的二阶振荡系统特性,则可设计制导指令俯仰角与输出俯仰角之间的关系满足下式:
    [0031][0032]
    式(2)中:
    [0033]
    为时间常数;
    [0034]
    为阻尼比;
    [0035]
    s为微分算子;
    [0036]
    相应地,其时域模型为:
    [0037][0038]
    选取参考模型状态为参考控制输入为u
    my
    ,则俯仰通道参考模型方程为:
    [0039][0040]
    式(4)中:
    [0041]
    θm为弹道倾角;
    [0042]
    ω
    zm
    为俯仰角速率;
    [0043]
    同理,可以求出偏航通道参考模型方程为:
    [0044][0045]
    式(5)中:
    [0046]
    σm为弹道偏角;
    [0047]
    ω
    ym
    为偏航角速率;
    [0048]
    ψm为偏航角;
    [0049]
    ξ
    ψ
    为偏航通道参考模型的期望阻尼系数;
    [0050]
    t
    ψ
    为偏航通道参考模型的期望时间常数;
    [0051]
    参考控制输入为u
    mz
    =ψc,ψc为偏航通道制导指令;
    [0052]
    同理,根据前述思路设计滚转通道的参考模型,则具有二阶振荡特性的滚转通道期望动力学响应模型如下:
    [0053][0054]
    式(6)中:
    [0055]
    γm是滚转角参考模型的输出信号;
    [0056]
    ξ
    x
    为滚转通道的期望阻尼系数;
    [0057]
    t
    x
    为滚转通道的期望时间常数;
    [0058]
    γc为滚转角制导指令;
    [0059]
    s为微分算子;
    [0060]
    选取状态变量为x
    xm
    =[γmω
    xm
    ]
    t
    ,控制输入为u
    mx
    =γc,则滚转通道有
    [0061][0062]
    式(7)中:
    [0063]
    ω
    xm
    为滚转角速率;
    [0064]
    将俯仰通道、偏航通道以及滚转通道参考模型统一写成状态方程为
    [0065][0066]
    式(8)中:
    [0067]
    xm为状态向量;
    [0068]am
    为状态矩阵;
    [0069]bm
    为控制矩阵;
    [0070]
    um为控制向量;
    [0071]
    s10202:设计状态空间模型
    [0072]
    通过小扰动线性化方法可得飞行器俯仰通道、偏航通道以及滚转通道状态空间模型,其中俯仰通道状态空间模型为:
    [0073][0074]
    式(9)中:
    [0075]
    θ为飞行器弹道倾角;
    [0076]
    为飞行器俯仰角;
    [0077]
    ωz为飞行器俯仰角速率;
    [0078]
    为飞行器俯仰舵偏角;
    [0079]fy
    为俯仰方向外界干扰量及未建模动态;
    [0080]
    为飞行器动力系数;
    [0081]
    同理可得:
    [0082]
    偏航通道状态空间模型为:
    [0083][0084]
    式(10)中:
    [0085]
    σ为飞行器弹道偏角;
    [0086]
    ψ为飞行器偏航角;
    [0087]
    ωy为飞行器偏航角速率;
    [0088]
    δ
    ψ
    为飞行器偏航舵偏角;
    [0089]fz
    为偏航方向外界干扰量及未建模动态;
    [0090]
    为飞行器动力系数;
    [0091]
    滚转通道的状态空间模型为:
    [0092][0093]
    式(11)中:
    [0094]
    γ为飞行器滚转角;
    [0095]
    ω
    x
    为飞行器滚转角速率;
    [0096]
    d1、d3为飞行器动力系数;
    [0097]
    δ
    γ
    为飞行器滚转舵偏角;
    [0098]fx
    为偏航方向外界干扰量及未建模动态;
    [0099]
    因此,状态空间模型统一表示为:
    [0100][0101]
    式(12)中:
    [0102]
    x为状态向量;
    [0103]
    a、b为俯仰通道有系数矩阵,且
    [0104][0105]
    u为状态空间模型控制向量;
    [0106]
    f为建模误差及其他干扰项;偏航通道和滚转通道类似,不赘述。
    [0107]
    为了便于系统统一设计,将俯仰通道、偏航通道和滚转通道的状态空间模型以及参考模型均变为两个状态量和一个控制量。
    [0108]
    为了简化控制模型,降低系统复杂度,以俯仰通道为例,状态空间模型简化为:
    [0109][0110]
    参考模型简化为:
    [0111][0112]
    为俯仰通道制导指令;
    [0113]
    偏航通道和滚转通道的处理方式与上同。
    [0114]
    s10203:设计模型参考自适应控制器:
    [0115]
    将前述建立的参考模型和实际状态空间模型进行统一如下:
    [0116][0117]
    根据式(15)可得误差方程为:
    [0118][0119]
    式(16)中:
    [0120]
    e为模型跟踪误差矩阵;
    [0121]
    为提高控制器对不确定性的适应能力,采用参考模型滑模控制方法,首先
    [0122]
    选择滑模面s如下所示:
    [0123]
    s=ce=[κ1,κ2][e1,e2]
    t
    ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
    (17)
    [0124]
    式(17)中:
    [0125]
    c=[κ1,κ2]为滑模面的增益矩阵;
    [0126]
    κ1,κ2为滑模面增益;
    [0127]
    e=[e1,e2]
    t
    为模型跟踪误差矩阵,其中:
    [0128]
    e1,e2为模型跟踪误差,且
    [0129]
    为了实现在固定的时间内使得模型跟踪误差收敛至零域的附近,同时为了避免具有较大的控制增益对控制系统的影响,采用如下所示的固定时间收敛的趋近律:
    [0130][0131]
    式(18)中:
    [0132]
    为滑模变量导数;
    [0133]
    k1、k2为常数;
    [0134]
    且k1>0,k2>0;
    [0135]
    p、q为常数;
    [0136]
    且0<p<1,q>1,
    [0137]
    e2为模型跟踪误差;
    [0138]
    和均为自适应增益系数;
    [0139]
    设计自适应增益调节律如下:
    [0140][0141]
    式(19)中:
    [0142]
    θ0∈(0,1),且θ0为常数;
    [0143]
    自适应增益的初值满足和
    [0144]
    σ1,σ2,σ3为控制器待设计参数;
    [0145]
    c1、c2和c3为常数且满足下式:
    [0146][0147]
    式(20)中:
    [0148]
    θ1、θ2、θ3均为常数
    [0149]
    且θ1>1/2,θ2>1/2,θ3>1/2;
    [0150]
    σ1,σ2,σ3为控制器待设计参数。
    [0151]
    s2:调整线上增量。
    [0152]
    s201:在线飞行时,收集并储存飞行器实时飞行数据,每间隔t时刻基于弹性权重合并(ewc)方法利用获得的飞行数据对参数辨识网络进行增量调整,以获得更加准确的飞行器参数辨识网络;
    [0153]
    s20101:收集并储存飞行器实时飞行数据,将t时刻内的数据记为利用所述数据训练神经网络的任务记为任务b,记先前参数辨识神经网络训练任务为a,则线上增量学习的目标为在任务a训练完成的基础上,进行任务b的学习,使神经网络能同时适应任务a与任务b,从而实现飞行器动力参数的准确辨识;
    [0154]
    s20102:利用ewc对飞行器动力参数辨识网络进行增量调整:
    [0155]
    定义:
    [0156]
    任务a和任务b的参数(权重和偏差)分别表示为θa和θb,
    [0157]
    任务a和任务b减少误差的参数集分别表示为和
    [0158]
    增量调整的目标即为寻找可同时在任务a和任务b中保持低误差的过度参数;
    [0159]
    ewc利用贝叶斯方法衡量任务的参数的重要性,为任务b更新它的参数,同时缓慢更新对任务a重要的参数以保持在a的低误差区域;
    [0160]
    具体地,参数的重要性建模为后验分布这是给定一个任务的训练数据的参数的概率;使用贝叶斯规则,后验概率的对数值如下:
    [0161][0162]
    假设数据由两个独立的部分组成:则任务a的和任务b的可以改写为:
    [0163][0164]
    式(22)左侧是给定的整个数据集的后验分布,右侧为仅取决于任务b的损失函数,即与任务a相关的所有信息都嵌入项ewc想要从抽取权重重要性的信息;不幸的是,很难获得;因此,ewc通过参数和fisher信息矩
    阵的对角线的对角精度的均值使其近似于高斯分布;这样,ewc中的新损失函数如下:
    [0165][0166]
    式(23)中:
    [0167]
    为任务b的损失;
    [0168]
    λ为增量调整权重;
    [0169]
    i为权重向量中的每个索引;
    [0170]
    若则fisher信息矩阵为n
    ×
    n矩阵,每个元素为:
    [0171][0172]
    式(24)中:
    [0173]
    i为fisher信息矩阵元素;
    [0174]ex
    为求数学期望符号;
    [0175]
    j为fisher信息矩阵元素列下标;
    [0176]
    飞行器在线飞行中,每间隔时间t将任务b重新记为任务a,将时间t内收集的数据训练任务记为任务b,重复以上训练步骤,即可实现参数辨识网络的线上持续增量调整。
    [0177]
    s202:将飞行器实际飞行状态输入增量调整后的飞行器参数辨识网络,获得飞行器实时动力参数,将动力参数输入飞行器模型参考自适应控制器,即可根据飞行器实时飞行状态解算得到更加准确的飞行器控制指令。
    [0178]
    对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同条件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
    [0179]
    此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
    转载请注明原文地址:https://tc.8miu.com/read-3232.html

    最新回复(0)