基于hjb方程数据驱动解的无人船最优避障路径规划方法
技术领域
1.本发明涉及无人船优化控制技术领域,尤其涉及一种基于hjb方程数据驱动解的无人船最优避障路径规划方法。
背景技术:
2.无人船的最优避障路径规划,是一个最优化的控制问题,其精确解通常需要涉及到求解无人船避障动态控制系统的hjb(hamilton-jacobi-bellman,哈密顿-雅可比-贝尔曼)方程。该方程是偏微分和泛函形式的复合函数,除线性系统和二次型效用函数形式之外,获得无人船避障动态控制系统hjb方程的精确解,早已被证明是非常困难的。
3.过去,迭代算法一直是求解无人船避障动态控制系统最优化方程的经典方法。后来,又有学者发明了同伦扰动法,用于求解无人船避障最优化动态控制系统涉及的微分和偏微分方程。近年来,学者们提出了一种基于神经网络逼近求解无人船避障动态控制系统最优化方程的方法。还有一些学者提出各种方法,以避免求解无人船避障动态控制系统的hjb方程。然而,迭代和神经网络方法都存在收敛等问题;同伦扰动法对无人船避障优化路径规划问题的适用范围有限;而避免求解最优化hjb方程,则无法从数学根本上解决无人船最优化避障路径规划问题。
4.经对现有专利检索发现,近年来,以无人船路径规划和避障控制为主题的公开和授权专利,是目前的热门研究成果和方向。有一些具有代表性,例如,申请号为:cn202111331127.8,名称为:“一种基于混合粒子群算法的无人船路径优化方法和系统”的发明专利,主要基于其改进的混合粒子群算法;申请号为:cn201910750052.3,名称为:“一种无人船全局气象航线动态规划方法和系统”的发明专利,主要还是采用动态规划方法;申请号为:cn202110551747.6,名称为:“一种基于大数据的无人船航行避障系统及方法”的发明专利,则综合了声纳、视觉、gps(global positioning system,全球定位系统)和各种传感器等的数据应用;还有申请号为:cn202111047594.8,名称为:“无人船避障方法及其系统”的发明专利,等等。这些发明的路径规划方法,很多均不是从数学的根本角度解决无人船路径规划的优化问题;而这些避碰方法和系统,其实质还是采用的传统控制方法。
技术实现要素:
5.本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本发明的一个目的在于提供一种基于hjb方程数据驱动解的无人船最优避障路径规划方法,通过确定数据驱动无模型hamilton函数(哈密顿函数),然后采用数据驱动的跟踪微分器分解并跟踪逼近最优控制函数中的系统状态变量,得到无人船最优避障路径规划的解,以从根本上解决无人船基于数据驱动hjb方程近似解的最优控制理论问题。
6.为达到上述目的,本发明通过以下技术方案实现:
7.一种基于hjb方程数据驱动解的无人船最优避障路径规划方法,包括:
8.步骤s1:给定用于无人船避障路径规划的动态控制系统模型,并获取所述动态控
制系统模型在无限时长优化上的效用函数;
9.步骤s2:确定最优效用函数,并根据所述最优效用函数确定所述动态控制系统模型的数据驱动无模型hamilton函数;
10.步骤s3:根据pontryagin(庞特里亚金)最小化原理,基于所述数据驱动无模型hamilton函数得到确定所述动态控制系统模型的最优控制函数的必要条件,以确定所述最优控制函数,并根据所述最优控制函数进行无人船最优避障路径规划。
11.可选的,所述步骤s1中的所述动态控制系统模型采用如下公式表示:
[0012][0013]
所述步骤s1中的所述效用函数采用如下公式表示:
[0014][0015]
其中,x(t)为系统状态变量,u(t)为系统控制变量,a为系统状态变量系数矩阵,b为系统控制变量系数矩阵,j为所述效用函数,q为二次型系数矩阵,r为系数,t为时间。
[0016]
可选的,所述系统状态变量包括第一变量和第二变量,所述第一变量与无人船和最近障碍物的距离相关,所述第二变量与无人船和最近障碍物的瞬时相对速度相关。
[0017]
可选的,所述步骤s2中的数据驱动无模型hamilton函数采用如下公式表示:
[0018][0019]
其中,为所述数据驱动无模型hamilton函数,x为所述x(t),u为所述u(t),j
*
为所述最优效用函数。
[0020]
可选的,确定所述动态控制系统模型的最优控制函数的必要条件采用如下公式表示:
[0021][0022]
其中,h为所述u
*
为所述最优控制函数。
[0023]
可选的,所述步骤s3中的确定所述最优控制函数的步骤包括:
[0024]
步骤s31:根据所述最优控制函数的必要条件确定初始的最优控制函数;
[0025]
步骤s32:对初始的最优控制函数中的偏导部分进行变量分解,得到多个分解函数;
[0026]
步骤s33:获取跟踪微分器,并采用所述跟踪微分器跟踪逼近多个所述分解函数中的系统状态变量,得到更新后的多个分解函数;
[0027]
步骤s34:根据所述效用函数和更新后的多个所述分解函数确定所述最优控制函数。
[0028]
可选的,所述步骤s31中的初始的最优控制函数采用如下公式表示:
[0029][0030]
所述跟踪微分器采用如下公式表示:
[0031][0032]
其中,x1为系统状态变量,x2为x1的一阶导数,fhan为非线性函数,v为系统输入设定值,r1为时间标尺,h0为滤波因子。
[0033]
可选的,所述非线性函数采用如下公式表示:
[0034][0035]
其中,sign为符号函数,x1(t)为所述x1,x2(t)为所述x2,a、d、d0、y和a0为中间变量。
[0036]
可选的,所述方法还包括:对初始的最优控制函数进行过零变量处理。
[0037]
可选的,所述最优效用函数采用如下公式确定:
[0038][0039]
或者,在确定最优控制函数后,根据所述最优控制函数和所述效用函数确定所述最优效用函数。
[0040]
本发明至少具有以下技术效果:
[0041]
本发明通过推导用于无人船避障路径规划的动态控制系统模型的数据驱动无模型hamilton函数,然后采用数据驱动的跟踪微分器分解和逼近最优控制函数中的系统状态变量,以得到所述最优控制函数,从而得到无人船最优避障路径规划的解,进而在根本上解决了无人船基于数据驱动hjb方程近似解的最优控制理论问题,且本发明中的动态控制系统模型为未知,所以本发明无需控制系统模型,可仅由测量的系统状态驱动,并且所有其他变量和导数均从提出的数据驱动无模型hamilton函数和跟踪微分器中得出,使得该方法像pid(proportional integral derivative,比例积分微分)控制器一样工作,避免了神经网
络或迭代方法的训练或者收敛等问题,从而使得该方法能够成为真正实时在线的无人船最优化避障路径规划方法。
[0042]
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
[0043]
图1为本发明一实施例提供的基于hjb方程数据驱动解的无人船最优避障路径规划方法的流程图;
[0044]
图2为本发明一实施例提供的基于hjb方程数据驱动解的无人船最优避障路径规划控制器的工作原理图;
[0045]
图3为本发明一实施例提供的基于hjb方程数据驱动解的无人船最优避障路径规划方法的工作流程图。
具体实施方式
[0046]
下面详细描述本实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
[0047]
下面参考附图描述本实施例的基于hjb方程数据驱动解的无人船最优避障路径规划方法。
[0048]
图1为本发明一实施例提供的基于hjb方程数据驱动解的无人船最优避障路径规划方法的流程图。如图1所示,基于hjb方程数据驱动解的无人船最优避障路径规划方法包括:
[0049]
步骤s1:给定用于无人船避障路径规划的动态控制系统模型,并获取动态控制系统模型在无限时长优化上的效用函数。
[0050]
需要说明的是,本实施例的基于hjb方程数据驱动解的无人船最优避障路径规划方法应用于图2所示的基于hjb方程数据驱动解的无人船最优避障路径规划控制器9。图3为本发明一实施例提供的基于hjb方程数据驱动解的无人船最优避障路径规划方法的工作流程图。
[0051]
如图2和图3所示,可预先给定用于无人船避障路径规划的动态控制系统模型(图2中标识2),所述动态控制系统模型采用如下公式表示:
[0052][0053]
其在无限时长优化上的效用函数j(图2中标识3),根据最优控制目标设计为:
[0054][0055]
并且,通常假定公式(1)中的动态控制系统模型是未知的,即如下所示:
[0056][0057]
其中,x(t)为系统状态变量,u(t)为系统控制变量,a为系统状态变量系数矩阵,b为系统控制变量系数矩阵,j为所述效用函数,q为二次型系数矩阵,r为系数,t为时间,单位
为秒,x(0)为初始状态变量。
[0058]
本实施例中,系统状态变量x(t)包括第一变量和第二变量,其中,第一变量与无人船(图2中标识1)和最近障碍物的距离相关,第二变量与无人船和最近障碍物的瞬时相对速度相关。
[0059]
如图2所示,系统状态变量x(t)可分别为无人船与最近障碍物的距离的倒数x0(t)、无人船与最近障碍物的瞬时相对速度的倒数x1(t)。
[0060]
本实施例中,系统控制变量u(t)可为舵角位置,系统状态变量系数矩阵系统控制变量系数矩阵初始状态变量二次型系数矩阵系数
[0061]
步骤s2:确定最优效用函数,并根据最优效用函数确定动态控制系统模型的数据驱动无模型hamilton函数。
[0062]
如图3所示,可推导动态控制系统模型的数据驱动无模型hamilton函数。本实施例中,避障路径规划的动态控制系统模型的数据驱动无模型hamilton函数,可运用连续动态规划原理,采用如下hjb方程来表示:
[0063][0064]
通过上述公式(4)可确定最优效用函数。
[0065]
进一步的,由公式(4)可推导得出数据驱动无模型hamilton函数(图2中标识5),其可采用如下公式表示:
[0066][0067]
式(4)和(5)中,为数据驱动无模型hamilton函数,x为x(t),u为u(t),j
*
为最优效用函数,ω为系统控制变量数据集合。
[0068]
如图2所示,图2中的标识4也为动态控制系统模型,由于公式(1)中的动态控制系统模型2是未知的,所以在公式(5)中,用实时可测量系统状态的导数代替标识4所示的动态控制系统模型,由此使得应用基于hjb方程数据驱动解的无人船最优避障路径规划方法的控制器9无需动态控制系统模型2,其完全由可测量系统状态的数据驱动,避免了神经网络或迭代方法的训练或者收敛等问题,从而使得该方法能够成为真正实时在线的无人船最优化避障路径规划方法。
[0069]
步骤s3:根据pontryagin最小化原理,基于数据驱动无模型hamilton函数得到确定动态控制系统模型的最优控制函数的必要条件,以确定最优控制函数,并根据最优控制函数进行无人船最优避障路径规划。
[0070]
所述步骤s3中的确定最优控制函数的步骤包括:
[0071]
步骤s31:根据最优控制函数的必要条件确定初始的最优控制函数。
[0072]
步骤s32:对初始的最优控制函数中的偏导部分进行变量分解,得到多个分解函数。
[0073]
步骤s33:获取跟踪微分器,并采用跟踪微分器跟踪逼近多个分解函数中的系统状态变量,得到更新后的多个分解函数。
[0074]
步骤s34:根据效用函数和更新后的多个所述分解函数确定最优控制函数。
[0075]
本实施例中,确定动态控制系统模型的最优控制函数(图2中标识6)的必要条件采用如下公式表示:
[0076][0077]
其中,h为所述u
*
为所述最优控制函数,即图2中的u
*
(t)。
[0078]
所述步骤s31中的初始的最优控制函数采用如下公式表示:
[0079][0080]
所述跟踪微分器(图2中的标识7)采用如下公式表示:
[0081][0082]
其中,x1为系统状态变量,x2为x1的一阶导数,fhan为非线性函数,v为系统输入设定值,r1为时间标尺,h0为滤波因子。
[0083]
所述非线性函数采用如下公式表示:
[0084]
[0085]
其中,sign为符号函数,x1(t)为所述x1,x2(t)为所述x2,a、d、d0、y和a0为中间变量。
[0086]
具体的,如图3所示,可推导动态控制系统模型的最优控制函数形式,即初始的最优控制函数,由于公式(7)满足公式(6)和这两个条件,所以公式(7)中的u
*
即为最优控制函数。
[0087]
本实施例中,在确定最优控制函数后,可根据最优控制函数u
*
和效用函数j确定最优效用函数j
*
。具体而言,可将根据公式(7)最后确定的最优控制函数u
*
代入公式(2)中,得到最优效用函数j
*
,所述最优效用函数j
*
即为规划的最优避障路径。
[0088]
针对如何求解最优控制函数,可采用如下方式进行。具体而言,在得到公式(7)所示的初始的最优控制函数之后,可针对公式(7)中的偏导数进行分解,得到多个分解函数,具体如下所示:
[0089][0090][0091][0092][0093]
进一步的,如图3所示,采用数据驱动的跟踪微分器跟踪逼近最优控制函数中的系统状态变量。
[0094]
例如,采用公式(8)中的跟踪微分器跟踪公式(10)-(11)中的系统状态变量,并输出该系统状态变量的一阶导数,然后代入公式(10)-(11)中得到公式(10)-(11)所示的更新后的分解函数。本实施例中,可串联两个公式(8)中的跟踪微分器,以便于再跟踪公式(12)-(13)中的系统状态变量,并输出该系统状态变量的二阶导数,然后代入公式(12)-(13)中,得到公式(12)-(13)所示的更新后的分解函数。
[0095]
本实施例中,系统状态变量和导数均可从提出的数据驱动无模型hamilton函数和跟踪微分器中得出,从而使得该方法避免了神经网络或迭代方法的训练或者收敛等问题,进而使得该方法能够成为真正实时在线的无人船最优化避障路径规划方法。
[0096]
进一步的,如图3所示,在得到更新后的分解函数之后,可相应得到最优控制函数u
*
,即基于hjb方程数据驱动解的无人船最优避障路径规划函数。
[0097]
具体的,在得到公式(10)-(13)中的更新后的分解函数之后,将其与公式(2)中的效用函数j代入公式(7)中,即可得到最优控制函数u
*
。
[0098]
在本发明的一个实施例中,所述方法还包括:对初始的最优控制函数进行过零变量处理。
[0099]
在得到公式(7)所示的初始的最优控制函数时,由于初始的最优控制函数中的所有除数均不能为0,为避免该种情况,可采用公式(14)所示的过零变量处理器(图2中标识8)对过零变量信号进行处理。
[0100]
x=max(abs(x),0.0001)sign(x)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(14)
[0101]
其中,abs是绝对值函数,max是比较两个变量并输出较大值的函数。
[0102]
作为一个具体示例,基于hjb方程数据驱动解的无人船最优避障路径规划控制器9的求解过程可由仿真工具matlab2007a/simulink及其s-function工具实现。本实施例中,无人船最优避障路径规划控制器9选择固定步长类型和ode3(求解器),固定步长为0.01,周期性采样时间不受约束,并设置周期采样时间的任务模式为自动,如下所示:
[0103]
1)设置初始状态变量x(0)=[1 0]
t
,u
*
和j
*
的初始值分别设置为-2和0;
[0104]
2)实时测量系统状态变量x(t);由于公式(1)中的动态控制系统模型是未知的,x(t)也是唯一需要从外部测量的信号,x(t)的一阶和二阶导数可从跟踪微分器实时输出;
[0105]
3)采用公式(4)计算最优效用函数j
*
,公式(7)计算最优控制函数u
*
,其中,公式(7)中的每个系统状态变量都可以用跟踪微分器计算出,待求解出每个系统状态变量之后,再根据公式(7)的关系对公式(7)进行更新,最后通过更新后的公式(7)近似每个时间步长上的最优控制函数u
*
。
[0106]
综上所述,本发明通过推导用于无人船避障路径规划的动态控制系统模型的数据驱动无模型hamilton函数,然后采用数据驱动的跟踪微分器分解和逼近最优控制函数中的系统状态变量,以得到所述最优控制函数,从而得到无人船最优避障路径规划的解,进而在根本上解决了无人船基于数据驱动hjb方程近似解的最优控制理论问题,且本发明中的动态控制系统模型为未知,所以本发明无需控制系统模型,可仅由测量的系统状态驱动,并且所有其他变量和导数均从提出的数据驱动无模型hamilton函数和跟踪微分器中得出,使得该方法具有坚实的数学基础,像pid控制器一样工作,避免了神经网络或迭代方法的训练或者收敛等问题,从而使得该方法能够成为真正实时在线的无人船最优化避障路径规划方法。
[0107]
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0108]
尽管本发明的内容已经通过上述优选实施例作了详细介绍,但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后,对于本发明的多种修改和替代都将是显而易见的。因此,本发明的保护范围应由所附的权利要求来限定。
技术特征:
1.一种基于hjb方程数据驱动解的无人船最优避障路径规划方法,其特征在于,包括:步骤s1:给定用于无人船避障路径规划的动态控制系统模型,并获取所述动态控制系统模型在无限时长优化上的效用函数;步骤s2:确定最优效用函数,并根据所述最优效用函数确定所述动态控制系统模型的数据驱动无模型hamilton函数;步骤s3:根据pontryagin最小化原理,基于所述数据驱动无模型hamilton函数得到确定所述动态控制系统模型的最优控制函数的必要条件,以确定所述最优控制函数,并根据所述最优控制函数进行无人船最优避障路径规划。2.如权利要求1所述的基于hjb方程数据驱动解的无人船最优避障路径规划方法,其特征在于,所述步骤s1中的所述动态控制系统模型采用如下公式表示:所述步骤s1中的所述效用函数采用如下公式表示:其中,x(t)为系统状态变量,u(t)为系统控制变量,a为系统状态变量系数矩阵,b为系统控制变量系数矩阵,j为所述效用函数,q为二次型系数矩阵,r为系数,t为时间。3.如权利要求2所述的基于hjb方程数据驱动解的无人船最优避障路径规划方法,其特征在于,所述系统状态变量包括第一变量和第二变量,所述第一变量与无人船和最近障碍物的距离相关,所述第二变量与无人船和最近障碍物的瞬时相对速度相关。4.如权利要求3所述的基于hjb方程数据驱动解的无人船最优避障路径规划方法,其特征在于,所述步骤s2中的数据驱动无模型hamilton函数采用如下公式表示:其中,为所述数据驱动无模型hamilton函数,x为所述x(t),u为所述u(t),j
*
为所述最优效用函数。5.如权利要求4所述的基于hjb方程数据驱动解的无人船最优避障路径规划方法,其特征在于,确定所述动态控制系统模型的最优控制函数的必要条件采用如下公式表示:其中,h为所述u
*
为所述最优控制函数。6.如权利要求5所述的基于hjb方程数据驱动解的无人船最优避障路径规划方法,其特征在于,所述步骤s3中的确定所述最优控制函数的步骤包括:步骤s31:根据所述最优控制函数的必要条件确定初始的最优控制函数;
步骤s32:对初始的最优控制函数中的偏导部分进行变量分解,得到多个分解函数;步骤s33:获取跟踪微分器,并采用所述跟踪微分器跟踪逼近多个所述分解函数中的系统状态变量,得到更新后的多个分解函数;步骤s34:根据所述效用函数和更新后的多个所述分解函数确定所述最优控制函数。7.如权利要求6所述的基于hjb方程数据驱动解的无人船最优避障路径规划方法,其特征在于,所述步骤s31中的初始的最优控制函数采用如下公式表示:所述跟踪微分器采用如下公式表示:其中,x1为系统状态变量,x2为x1的一阶导数,fhan为非线性函数,v为系统输入设定值,r1为时间标尺,h0为滤波因子。8.如权利要求7所述的基于hjb方程数据驱动解的无人船最优避障路径规划方法,其特征在于,所述非线性函数采用如下公式表示:其中,sign为符号函数,x1(t)为所述x1,x2(t)为所述x2,a、d、d0、y和a0为中间变量。9.如权利要求8所述的基于hjb方程数据驱动解的无人船最优避障路径规划方法,其特征在于,还包括:对初始的最优控制函数进行过零变量处理。10.如权利要求4所述的基于hjb方程数据驱动解的无人船最优避障路径规划方法,其特征在于,所述最优效用函数采用如下公式确定:
或者,在确定最优控制函数后,根据所述最优控制函数和所述效用函数确定所述最优效用函数。
技术总结
本发明公开了一种基于HJB方程数据驱动解的无人船最优避障路径规划方法,该方法包括:给定用于无人船避障路径规划的动态控制系统模型,并获取动态控制系统模型在无限时长优化上的效用函数;确定最优效用函数,并根据最优效用函数确定数据驱动无模型Hamilton函数;根据Pontryagin最小化原理,基于数据驱动无模型Hamilton函数得到确定动态控制系统模型的最优控制函数的必要条件,以确定最优控制函数,并根据最优控制函数进行无人船最优避障路径规划。本发明可从根本上解决无人船基于数据驱动HJB方程近似解的最优控制理论问题,并实现无人船避障路径规划。无人船避障路径规划。无人船避障路径规划。
技术研发人员:黄志坚 杨光 曹新宇
受保护的技术使用者:上海海事大学
技术研发日:2022.03.07
技术公布日:2022/5/25
转载请注明原文地址:https://tc.8miu.com/read-24939.html