一种基于强化学习和可达集的安全轨迹规划方法与系统

专利查询2025-08-11 534

本发明属于自动驾驶，具体涉及一种基于强化学习和可达集的安全轨迹规划方法与系统。

背景技术：

1、轨迹规划是实现车辆自动驾驶功能的重要技术，其作用在于生成一条无碰撞易跟踪的可行轨迹。传统的轨迹规划方法通过设计代价函数，利用搜索或采样的方式生成初始轨迹，并基于初始轨迹进行轨迹优化，从而得到最终的规划轨迹。这类方法在进行代价函数构建时，需要手动设计诸多规则从而保证初始轨迹的合理性，但自动驾驶场景无穷尽，无法通过有限的规则解决所有场景难题。因此，可利用基于数据驱动的方法实现轨迹规划，解决规则设计冲突、覆盖场景有限的问题。

2、基于强化学习的轨迹规划技术是一类基于数据驱动的方法。智能体通过与仿真环境交互学习，不断提高轨迹规划性能，具备智能决策的能力。但基于强化学习生成的轨迹缺乏可解释性且无法完全保证生成轨迹的安全性。

3、因此，实有必要提供一种基于强化学习和可达集的安全轨迹规划方法与系统及系统以解决上述问题。

技术实现思路

1、本发明提供一种基于强化学习和可达集的安全轨迹规划方法与系统及系统，利用强化学习进行轨迹粗解生成，与基于搜索和采样的方法相比，计算效率更高，无需复杂繁琐的规则设计，具备学习进化的能力；利用可达集对轨迹粗解进行修正，并为轨迹优化问题提供约束条件，保障了车辆行驶的效率以及安全性；利用约束迭代线性二次型调节器进行轨迹优化，与二次优化算法相比，生成的轨迹曲率更小，轨迹舒适度更高，可以有效解决背景技术中提及的至少一个问题。

2、为了解决上述技术问题，本发明是这样实现的：

3、一种基于强化学习和可达集的安全轨迹规划方法，包括如下步骤：

4、步骤s1，构建智能体，具体包括：以当前车辆状态信息、其他车辆状态信息以及道路条件信息构建状态空间；以当前车辆的横向位置信息和纵向速度信息构建动作空间；以行驶舒适性、效率性以及安全性为评价指标构建奖励函数；以及设置初始策略网络；将智能体与环境进行交互训练，得到训练后的策略网络；

5、步骤s2，利用纵向四次多项式和横向五次多项式生成当前车辆的规划轨迹，并计算当前车辆的可达集，所述可达集用于表征当前车辆的可行驶区域边界，利用可达集对当前车辆的规划轨迹进行修正，获得轨迹粗解；

6、步骤s3，构建轨迹优化问题的目标函数，以加加速度代价、前轮转角角速度代价、轨迹曲率代价以及安全距离代价为评价指标对轨迹粗解进行优化，输出优化后的规划轨迹。

7、作为一种优选的改进，当前车辆状态信息包括当前车辆的位置、航向角，纵横方向上的速度、加速度以及加加速度；

8、其他车辆状态信息sobs表示为：

9、

10、式中，j表示与当前车辆存在交互关系的其他车辆，最大取值为8；δsj表示当前车辆与其他车辆j的纵向相对位置；δlj表示当前车辆与其他车辆j的横向相对位置；δvj表示当前车辆与其他车辆j的相对速度；表示当前车辆与其他车辆j发生碰撞与否的变量，发生碰撞，反之，

11、道路条件信息sroad表示为：

12、

13、式中，和分别表示当前车辆的后轴中心距离左右路边界的横向距离；和分别表示当前车辆的后轴中心距离左右道边界的横向距离；do表示当前车辆的后轴中心距离参考轨迹的横向距离。

14、作为一种优选的改进，舒适性通过生成轨迹的平均加加速度、最大横向加速度、平均横摆角速度以及最大曲率进行评估；行驶效率通过前方车辆对当前车辆所产生的影响以及智能体与环境每次交互所产生的时间惩罚进行评估；行驶安全性通过车辆是否发生碰撞或者驶离路面进行评估。

15、作为一种优选的改进，由轨迹的平均加加速度产生的奖励通过下式计算：

16、

17、式中，n表示生成轨迹的轨迹点数量；ai表示第i个点的加速度；δt表示轨迹点间的时间间隔；

18、不考虑车辆质心侧偏角，由轨迹的平均横摆角速度产生的奖励通过下式计算：

19、

20、式中，θi表示第i个轨迹点的航向角；

21、由轨迹的最大横向加速度产生的奖励通过下式计算：

22、

23、式中，表示轨迹的横向加速度；

24、由轨迹的最大曲率产生的奖励rκ通过下式计算：

25、

26、式中，表示可被接受的最大曲率值，κ表示轨迹点的曲率值；

27、通过加权和的方式获得舒适度奖励函数rc，表示为：

28、

29、式中，wκ表示权重系数，

30、前方车辆对当前车辆的影响通过前方受感知车辆中速度最大的车辆速度为基准进行计算：

31、

32、式中，rv表示前方车辆对当前车辆的影响所产生的奖励；vmax表示前方受感知车辆的最大速度，v表示当前车辆速度，在结构化道路中行驶时，不存在倒车现象，因此车速恒大于0，表示将比值裁剪至(反，1]范围内；

33、智能体每与环境进行一次交互，产生一个固定值的时间惩罚奖励rc；

34、最终的效率奖励re为上述两项加权和，表示为：

35、re＝wvrv+wcrc；

36、式中，wv、wc表示权重，wv+wc＝1；

37、如果车辆发生碰撞或驶离路面，则当前车辆会收到一个较大的负值奖励rs；

38、则最终的奖励r计算由下式确定：

39、r＝rc+rs+re。

40、作为一种优选的改进，可行驶区域边界包含轨迹规划时域内各个离散时刻上，当前车辆在纵横向可到达的位置边界与速度边界。

41、作为一种优选的改进，规划轨迹修正的过程包括纵向速度修正和横向位置修正，其中，纵向速度修正的过程包括如下步骤：

42、考虑终端时刻约束，智能体通过当前纵向车速以及从状态空间获取的前方车辆速度生成目标速度

43、若目标速度不满足可达集中包含规划终点时刻的纵向速度边界约束的范围，则利用纵向速度边界对目标速度进行修正，得到修正后的纵向速度修正公式为：

44、

45、假设规划终端时刻纵向加速度为0，利用修正后的终端时刻纵向速度重新计算多项式轨迹参数，获得修正后的纵向速度曲线；

46、针对t∈[反，t]内每个离散时刻t进行纵向速度检查，若纵向速度不在边界范围内，则利用修正公式对纵向速度进行修正，直至规划时域内所有离散时刻的纵向速度位于纵向速度边界范围内；

47、横向位置的修正过程包括如下步骤：

48、将横向位置曲线投影至可达集中的横向位置边界内，若不满足横向位置边界约束的范围，则利用横向位置边界对横向位置进行修正，得到修正后的横向位置修正公式为：

49、

50、利用修正后的横向位置重新计算多项式轨迹参数，获得修正后的横向位置轨迹曲线；

51、在规划时域内的每个离散时刻t上逐次进行横向位置l(t)检查，若横向位置不在边界范围内，则利用修正公式对横向位置进行修正，直至规划时域内所有离散时刻的横向位置位于横向位置边界范围内。

52、作为一种优选的改进，加加速度代价的计算方法如下：

53、

54、式中，ai表示第i个轨迹点的加速度；表示加加速度代价权重；

55、前轮转角角速度代价的计算方法如下：

56、

57、式中，δi表示第i个轨迹点的前轮转角；表示前轮转角角速度代价权重；

58、根据车辆运动学模型，轨迹曲率可利用转向角和车辆轴距进行估算，因此轨迹曲率代价的计算方法如下：

59、

60、式中，lb表示车辆轴距长度；表示曲率代价权重；

61、安全距离代价首先考虑利用可行驶区域最后步生成的可行驶矩形区域左右边中点，进行左右边界提取，然后计算出中心线的位置序列，最后计算轨迹点到中心线位置序列的横向距离作为安全距离代价，该代价越小，则生成轨迹越贴近可行驶区域的中心线，因此可避免生成轨迹出现在可行驶区域边界附近的情况，假设表示中心线上距离轨迹点(x，y)最近的点，则安全距离代价为：

62、

63、总目标代价为上述子代价之和：

64、

65、作为一种优选的改进，步骤s3中，规划优化问题求解过程中还需要基于车辆行驶安全性和车辆控制器限制构建约束条件，其中：

66、基于车辆控制器限制构建的约束条件包括速度约束、加速度约束和转向角约束不等式，表示为：

67、vmin≤v≤vmax；

68、amin≤a≤amax；

69、δmin≤δ≤δmax；

70、式中，v、a、δ分别表示当前车辆的速度、加速度和转向角；[vmin，vmax]表示车辆控制器限制的速度区间；[amin，amax]表示车辆控制器限制的加速度区间；[δmin，δmax]表示车辆控制器限制的转向角区间；

71、基于车辆行驶安全性构建的约束条件包括位置约束，通过生成的风险可达集来表示：

72、可达集的位置边界由四个顶点v1、v2、v3、v4围成，顶点v1和v2构成的直线表达式为y＝a1x+b1，顶点v2和v3构成的直线表达式为y＝a2x+b2，顶点v3和v4构成的直线表达式为y＝a3x+b3，顶点v4和v1构成的直线表达式为y＝a4x+b4；

73、则轨迹点的位置应满足如下约束：

74、yi-a1xi-b1≤0；

75、yi-a2xi-b2≤0；

76、-yi+a3xi+b3≤0；

77、-yi+a4xi+b4≤0；

78、式中的a1、a2、a3、a4以及b1、b2、b3、b4表示从v1顺时针出发，相邻两点形成的直线表达式参数，可通过四个顶点v1、v2、v3、v4的坐标求出。

79、作为一种优选的改进，步骤s3中，利用约束迭代线性二次型调节器算法对轨迹优化问题进行求解，输出最优的规划轨迹。

80、本发明还提供一种用于执行上述的基于强化学习和可达集的安全轨迹规划方法的系统，包括：

81、智能体构建模块，用于构建智能体，具体包括：以当前车辆状态信息、其他车辆状态信息以及道路条件信息构建状态空间；以当前车辆的横向位置信息和纵向速度信息构建动作空间；以行驶舒适性、效率性以及安全性为评价指标构建奖励函数；以及设置初始策略网络；将智能体与环境进行交互训练，得到训练后的策略网络；

82、轨迹粗解计算模块，利用纵向四次多项式和横向五次多项式生成当前车辆的规划轨迹，并计算当前车辆的可达集，所述可达集用于表征当前车辆的可行驶区域边界，利用可达集对当前车辆的规划轨迹进行修正，获得轨迹粗解；

83、轨迹优化模块，构建轨迹优化问题的目标函数，以加加速度代价、前轮转角角速度代价、轨迹曲率代价以及安全距离代价为评价指标对轨迹粗解进行优化，输出优化后的规划轨迹。

84、本发明的有益效果在于：

85、(1)利用强化学习进行轨迹粗解生成，与基于搜索和采样的方法相比，计算效率更高，无需复杂繁琐的规则设计，具备学习进化的能力；

86、(2)利用可达集对轨迹粗解进行修正，并为轨迹优化问题提供约束条件，保障了车辆行驶的效率以及安全性；

87、(3)利用约束迭代线性二次型调节器进行轨迹优化，与二次优化算法相比，生成的轨迹曲率更小，轨迹舒适度更高。

技术特征：

1.一种基于强化学习和可达集的安全轨迹规划方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于强化学习和可达集的安全轨迹规划方法，其特征在于，当前车辆状态信息包括当前车辆的位置、航向角，纵横方向上的速度、加速度以及加加速度；

3.根据权利要求1所述的基于强化学习和可达集的安全轨迹规划方法，其特征在于，舒适性通过生成轨迹的平均加加速度、最大横向加速度、平均横摆角速度以及最大曲率进行评估；行驶效率通过前方车辆对当前车辆所产生的影响以及智能体与环境每次交互所产生的时间惩罚进行评估；行驶安全性通过车辆是否发生碰撞或者驶离路面进行评估。

4.根据权利要求3所述的基于强化学习和可达集的安全轨迹规划方法，其特征在于，

5.根据权利要求1所述的基于强化学习和可达集的安全轨迹规划方法，其特征在于，可行驶区域边界包含轨迹规划时域内各个离散时刻上，当前车辆在纵横向可到达的位置边界与速度边界。

6.根据权利要求5所述的基于强化学习和可达集的安全轨迹规划方法，其特征在于，规划轨迹修正的过程包括纵向速度修正和横向位置修正，其中，纵向速度修正的过程包括如下步骤：

7.根据权利要求1所述的基于强化学习和可达集的安全轨迹规划方法，其特征在于，加加速度代价的计算方法如下：

8.根据权利要求1所述的基于强化学习和可达集的安全轨迹规划方法，其特征在于，步骤s3中，规划优化问题求解过程中还需要基于车辆行驶安全性和车辆控制器限制构建约束条件，其中：

9.根据权利要求1所述的基于强化学习和可达集的安全轨迹规划方法，其特征在于，步骤s3中，利用约束迭代线性二次型调节器算法对轨迹优化问题进行求解，输出最优的规划轨迹。

10.一种用于执行权利要求1-9任一项所述的基于强化学习和可达集的安全轨迹规划方法的系统，其特征在于，包括：

技术总结
本发明提供一种基于强化学习和可达集的安全轨迹规划方法与系统及系统，属于自动驾驶领域。本发明利用强化学习进行轨迹粗解生成，与基于搜索和采样的方法相比，计算效率更高，无需复杂繁琐的规则设计，具备学习进化的能力；利用可达集对轨迹粗解进行修正，并为轨迹优化问题提供约束条件，保障了车辆行驶的效率以及安全性；利用约束迭代线性二次型调节器进行轨迹优化，与二次优化算法相比，生成的轨迹曲率更小，轨迹舒适度更高。

技术研发人员：袁诗杰,徐彪,秦晓辉,秦兆博,谢国涛,王晓伟,边有钢,丁荣军,胡满江,秦洪懋
受保护的技术使用者：湖南大学
技术研发日：
技术公布日：2024/11/26

转载请注明原文地址:https://tc.8miu.com/read-31201.html

专利

最新回复(0)