1.本发明涉及自动驾驶领域,尤其是涉及基于分层强化学习的自动驾驶决策方法和装置。
背景技术:
2.自动驾驶目前应用的决策技术主要是基于状态机的决策方法。该方法使用逻辑推理的状态转移,从一个上层的既定逻辑进入下层决策,比如:先决定是否吃饭再决定吃什么。状态机的决策是稳定可靠的,但是随着需要使用的场景的增加,状态机会不断的扩展,复杂化。在自动驾驶领域中,要覆盖的交通场景千变万化,状态机无论是深度还是广度都不具有很好的泛化性,而且伴随着自动驾驶任务的增加,代码的数量和维护难度也都会指数级增加。如果上层决策发生了变化,下层的决策就需要一一的完善。因此适用性和泛用性都有一定的限制。
3.使用深度学习和强化学习等新兴技术可以使模型的泛化能力更强,基于深度强化学习的模型更是能获得更优秀的决策,但是在做自动驾驶的决策中,由于上游模块的限制,决策模块无法获得非常准确的推演。同时,由于人工智能中经常使用的相关优化求解工具:神经网络在一系列的变换过程中可解释性有所下降,对于决策模块的问题无法做出很好的针对性提升。通过分层强化学习也可以更直接的获得模型内部数据的一些语义层的解释,极大的增加了智能体的可解释性,进而增加了决策模块的稳定性和前瞻性。
4.但是,仅仅在决策层使用强化学习等人工智能技术,在实际使用中仍然会出现和上下游出现分歧的方面,在预测到决策的连接中这个问题尤为明显。预测模块目前普遍是对周围一定范围的车辆进行预测,其感受野虽然会进行一定的设计,但是对于决策而言,在使用的时候仅仅会使用部分较为关注的车辆,在这个过程中一些边缘车辆就会做无效预测,造成算力的浪费和预测效果的扰动增加。同时对于决策过程中的重要障碍物,往往我们需要更为准确的预测,但是大部分预测方法都是在一个运行周期内对障碍物使用相同的方法,没有得到更好的效果。对于一些复杂场景的决策,会在预测层形成一定的“瓶颈”,对于决策模块想要采取的主动决策会造成一定的影响。
技术实现要素:
5.有鉴于此,本发明的目的在于提供基于分层强化学习的自动驾驶决策方法和装置,将深度学习的模型和强化学习算法结合,确保了决策的稳定性和前瞻性,降低了预测的计算消耗。
6.第一方面,本发明实施例提供了基于分层强化学习的自动驾驶决策方法,所述方法包括:
7.获取上游数据,所述上游数据包括感知融合数据、定位数据和控制数据;
8.将所述上游数据输入到深度学习的模型中,输出得到感受野模型和第一预测轨迹;
9.将所述感受野模型和所述第一预测轨迹输入到强化学习算法中,输出得到第一规划轨迹;
10.根据所述第一规划轨迹控制车辆执行相应操作。
11.进一步的,所述感知融合数据包括障碍物坐标信息、红绿灯种类信息和车辆类别信息;所述定位数据包括自车的位置信息和周围车辆的位置信息;所述控制数据包括所述自车的状态信息和方向盘转角信息。
12.进一步的,所述方法还包括:
13.将所述上游数据输入到车辆预测算法中进行预训练,构建预测模型;
14.获取当前上游数据;
15.将所述当前上游数据输入到所述预测模型中,输出得到所述预测轨迹;
16.其中,车辆预测算法为栅格法、lstm或锚点法。
17.进一步的,所述方法还包括:
18.将所述感受野模型和所述预测轨迹进行动态排列组合,得到下层输入数据;
19.将所述下层输入数据通过所述强化学习算法进行训练,得到综合评估;
20.将所述综合评估进行数学公式映射,得到决策模块评价和预测模块评价。
21.进一步的,所述方法还包括:
22.根据环境信息和上一时刻的决策实时动态调整所述感受野模型,得到调整后的感受野模型;
23.在当前时刻对所述调整后的感受野模型进行预测,得到动态变换的第二预测轨迹;
24.根据所述调整后的感受野模型和所述第二预测轨迹,生成第二规划轨迹。
25.第二方面,本发明实施例提供了基于分层强化学习的自动驾驶决策装置,所述装置包括:
26.预测模块,用于获取上游数据,所述上游数据包括感知融合数据、定位数据和控制数据;将所述上游数据输入到深度学习的模型中,输出得到感受野模型和第一预测轨迹;
27.决策规划模块,用于将所述感受野模型和所述第一预测轨迹输入到强化学习算法中,输出得到第一规划轨迹;
28.控制模块,用于根据所述第一规划轨迹控制车辆执行相应操作。
29.进一步的,所述感知融合数据包括障碍物坐标信息、红绿灯种类信息和车辆类别信息;所述定位数据包括自车的位置信息和周围车辆的位置信息;所述控制数据包括所述自车的状态信息和方向盘转角信息。
30.进一步的,所述装置还包括:
31.预训练模块,用于将所述上游数据输入到车辆预测算法中进行预训练,构建预测模型;
32.获取模块,用于获取当前上游数据;
33.输入模块,用于将所述当前上游数据输入到所述预测模型中,输出得到所述预测轨迹;
34.其中,车辆预测算法为栅格法、lstm或锚点法。
35.第三方面,本发明实施例提供了电子设备,包括存储器、处理器,所述存储器上存
储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的方法。
36.第四方面,本发明实施例提供了具有处理器可执行的非易失的程序代码的计算机可读介质,所述程序代码使所述处理器执行如上所述的方法。
37.本发明实施例提供了基于分层强化学习的自动驾驶决策方法和装置,包括:获取上游数据,上游数据包括感知融合数据、定位数据和控制数据;将上游数据输入到深度学习的模型中,输出得到感受野模型和第一预测轨迹;将感受野模型和第一预测轨迹输入到强化学习算法中,输出得到第一规划轨迹;根据第一规划轨迹控制车辆执行相应操作;将深度学习的模型和强化学习算法结合,确保了决策的稳定性和前瞻性,降低了预测的计算消耗。
38.本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
39.为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
40.为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
41.图1为本发明实施例一提供的原始感受野模型;
42.图2为本发明实施例一提供的动态变化的感受野模型;
43.图3为本发明实施例一提供的基于分层强化学习的自动驾驶决策方法流程图;
44.图4为本发明实施例一提供的预测和决策过程示意图;
45.图5为本发明实施例一提供的预训练过程和推理过程示意图;
46.图6为本发明实施例一提供的强化学习算法过程示意图;
47.图7为本发明实施例一提供的基于分层强化学习的自动驾驶决策装置示意图。
48.图标:
49.1-预测模块;2-决策规划模块;3-控制模块。
具体实施方式
50.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
51.目前,自动驾驶技术随着设备和需求的日益迭代,已经初具规模,l2/l3级的自动驾驶已经逐渐走入平常生活当中,稳定的感知定位技术也不再是稀奇事物。自动驾驶技术的难点已经逐渐在预测和决策模块中暴露出来,如何做超越人类思考的自动驾驶智能体,如何在预测和决策模块冗余上游的不确定性,这些难点痛点问题都是待突破的瓶颈。
52.预测模块随着深度学习技术的发展,已经在公开数据集中得到了足够的印证,目前效果较好的预测算法已经能够比较准确的预测3s的轨迹,终点位移误差和平均位移误差也已经能够稳定在1m左右,实际测试表现无明显缺陷。但是在使用的时候,往往受限于预测的输入形式,对边缘障碍物的预测一定程度上也影响到了自车附近障碍物的预测精度。对于自车驾驶员来说,关注的障碍物往往只有感知范围内的一部分。增加了大范围内的障碍物,尤其是边缘障碍物的数据,存在相对更大的噪声,这些都会影响到我们需要关注车辆的预测精度,最大的问题是,基于预测模块的视角,我们并不能知道决策模块最看重的障碍物是哪几个。
53.决策模块还处于探索阶段,缺乏统一的度量衡,目前业界使用较多的主要是以状态机为主的人为设定的决策器,以及一些强化学习的决策方法的探索。从工程可靠性的角度去考虑决策问题:只有通过基于状态机的决策模式得到了实际应用。强化学习的方法更多的是从仿真到实践的转化探索阶段。
54.强化学习作为一种特别的优化问题解决方法,能够在实验室环境下做大量的仿真测试,解决问题,对于自动驾驶领域而言有重要价值,分层强化学习技术(hierarchical reinforcement learning)作为一种主流的强化学习技术,在实际应用中能够解决基础强化学习算法的短板,对于自动驾驶技术而言具有很重要的研究和应用价值。
55.基于深度强化学习的决策模型虽然可以替换状态机做决策,但是需要和上游进行相关的匹配,在决策的过程中既要保证决策的稳定性和前瞻性,又要和预测模块进行相关的适配。
56.本技术通过将预测模块和决策模块耦合,将预测模块作为强化学习的管理层(manager),将决策模块作为强化学习的执行层(controller)。通过预测模块和决策模块的相互结合,并基于hrl的架构完成了具有模块间交互能力的预测和决策框架。
57.同时决策模块对不同障碍物的着重程度,预测感受野的动态调整会直接影响到决策模块的前瞻性,例如:当自车要选择汇入匝道时,我们肯定会动态关注一条相邻车道而不是周围感受野内的所有车,这个时候在邻近的单一车道上的预测关注范围我们就希望在一定范围内越长越好,而不是维持原始的感受野大小不变。当加塞的时候,我们更关注周围的前序几辆车,而再远的车道的都不需要做过分的关注,这样一方面可以降低预测的算力消耗,另一方面,也可以提升决策模块的前瞻把握能力。如图1和图2所示,图1中的圆形范围为原始感受野模型,原始感受野模型以自车为中心,以半径r为感知范围(二元组a=b为圆形,和下层的决策规划模块结合);图2中的椭圆形范围为动态变化后的感受野。
58.为便于对本实施例进行理解,下面对本发明实施例进行详细介绍。
59.实施例一:
60.图3为本发明实施例一提供的基于分层强化学习的自动驾驶决策方法流程图。
61.参照图3,该方法包括以下步骤:
62.步骤s101,获取上游数据,上游数据包括感知融合数据、定位数据和控制数据;
63.这里,在获取上游数据后,可以将上游数据在车辆仿真器中进行数据回放。其中,车辆仿真器包括carla和sumo等。
64.步骤s102,将上游数据输入到深度学习的模型中,输出得到感受野模型和第一预测轨迹;
65.具体地,将上游数据输入到深度学习的模型中进行训练后,完成预测模块的更新,使预测模块获得先验知识。感受野模型的参数为一个二元组,用于椭圆感受野建模,后续可以采用多参数组的非凸感受野;第一预测轨迹可以为3s的预测轨迹;当每个车辆输出k条轨迹和对应的概率时,将输出概率大于30%的轨迹作为第一预测轨迹;其中,30%为分割线。
66.步骤s103,将感受野模型和第一预测轨迹输入到强化学习算法中,输出得到第一规划轨迹;
67.具体地,获取感受野模型和第一预测轨迹,通过对每个障碍物的预测轨迹组合情况进行决策推断(给定假设为车辆的决策会被执行,决策规划模块采用一种现行效果较好的规划器,例如,mpc(模型预测控制)和lqr(linear quadratic regulator,线性二次型调节器)等;控制模块可以完成相应的轨迹执行),使决策规划模块输出第一规划轨迹。同时,决策规划模块反馈感受野模型的权重,从而更新下一步预测使用的参数。
68.步骤s104,根据第一规划轨迹控制车辆执行相应操作。
69.具体地,参照如图4所示的预测和决策过程示意图,在预测模块中,将上游数据作为深度学习的模型的输入,输出得到感受野模型和第一预测轨迹;在决策规划模块中,将感受野模型和第一预测轨迹作为强化学习算法的输入,输出得到第一规划轨迹,并将第一规划轨迹发送给控制模块,控制模块根据第一规划轨迹控制车辆执行相应操作。
70.进一步的,感知融合数据包括障碍物坐标信息、红绿灯种类信息和车辆类别信息;定位数据包括自车的位置信息和周围车辆的位置信息;控制数据包括自车的状态信息和方向盘转角信息。
71.进一步的,该方法还包括以下步骤:
72.步骤s201,将上游数据输入到车辆预测算法中进行预训练,构建预测模型;
73.步骤s202,获取当前上游数据;
74.步骤s203,将当前上游数据输入到预测模型中,输出得到预测轨迹;
75.其中,车辆预测算法为栅格法、lstm(long short-term memory,长短期记忆网络)或锚点法。
76.这里,在车辆预测算法的预训练过程中,上层学习的参数是轨迹根据车辆关注程度加权的ade(average displacement error,平均位移误差)和fde(finale displacement error,终点位移误差)。设计该学习参数的初衷是为了让轨迹尽可能的准确,同时为了保证动态预测的可靠性。
77.具体地,参照图5,在预训练过程中,将上游数据输入到车辆预测算法中进行预训练,构建预测模型;将训练好的预测模型应用到推理过程中,即将当前上游数据输入到训练好的预测模型中,输出得到预测轨迹。
78.进一步的,参照图6,该方法还包括以下步骤:
79.步骤s301,根据感受野模型和仿真环境下预测轨迹进行动态排列组合后,得到下层输入数据;
80.步骤s302,将下层输入数据通过强化学习算法进行训练,得到综合评估;
81.这里,强化学习算法在训练过程中,通过设定的评价指标进行相关的评价(例如,触发了决策规划模块的fallback机制给予较大的负值奖励、触发不同的减速给予较小的负值奖励和完成行为后给予一定的正值奖励)。
82.步骤s303,将综合评估进行数学公式映射,得到决策模块评价和预测模块评价。
83.具体地,如图6所示,根据调整后的感受野模型计算感受野调节损失函数,根据综合评估计算行动损失函数,将感受野调节损失函数和行动损失函数相加后,得到更新模型,通过更新模型对预测模型进行更新,以及将更新模型发送给决策规划模块,使决策规划模块继续进行探索。
84.进一步的,该方法还包括以下步骤:
85.步骤s401,根据环境信息和上一时刻的决策实时动态调整感受野模型,得到调整后的感受野模型;
86.这里,动态调整的预测会在一定程度上减少预测模块的计算量消耗,对于现行的开源框架,相关的计算开销可以得到较大幅度的削减。采用hrl(hierarchical reinforcement learning,分层强化学习)完成预测模块和决策规划模块的上下游交互,增加了决策的可解释性,有助于解决城区道路决策难题(无保护左转或加塞等)。
87.步骤s402,在当前时刻对调整后的感受野模型进行预测,得到动态变换的第二预测轨迹;
88.步骤s403,根据调整后的感受野模型和第二预测轨迹,生成第二规划轨迹。
89.这里,决策规划模块进行决策规划的工作生成第二预测轨迹,并发送给控制模块。其中,在仿真环境中存在假设:控制模块可以跟随决策规划模块,不存在滞后性。根据预测模块和决策规划模块的交互,通过决策规划模块的反馈奖励值学习,得到调整后的感受野模型,可以最优化长远决策,提高决策的前瞻性和可靠性。根据多个预测轨迹进行仿真环境内的强化学习,增加了样本的随机性,同时完成了数据增广的工作,增加了对于强化学习智能体的可泛化性。
90.在仿真测试中,训练好的预测模型能够保证在复杂交通的时候做出比较保守的长序决策。相应的预测模块已经在公开数据集上做出来相应的验证,同时后续的决策规划模块也已经进行了相关的封闭测试,预测模块的准确性在能够达到较高水平,完整系统的可行性在代码算力消耗以及其他隐性指标中(例:平顺性乘坐体验,周遭观察等)都表现良好,优于开源框架以及部分现行算法(例如,autoware(自动驾驶)开源框架、部分预测算法和决策算法的解耦组合)的实现。
91.本发明实施例提供了基于分层强化学习的自动驾驶决策方法,包括:获取上游数据,上游数据包括感知融合数据、定位数据和控制数据;
92.将上游数据输入到深度学习的模型中,输出得到感受野模型和第一预测轨迹;将感受野模型和第一预测轨迹输入到强化学习算法中,输出得到第一规划轨迹;根据第一规划轨迹控制车辆执行相应操作;将深度学习的模型和强化学习算法结合,确保了决策的稳定性和前瞻性,降低了预测的计算消耗。
93.实施例二:
94.图7为本发明实施例一提供的基于分层强化学习的自动驾驶决策装置示意图。
95.参照图7,该装置包括:
96.预测模块1,用于获取上游数据,上游数据包括感知融合数据、定位数据和控制数据;将上游数据输入到深度学习的模型中,输出得到感受野模型和第一预测轨迹;
97.决策规划模块2,用于将感受野模型和第一预测轨迹输入到强化学习算法中,输出
得到第一规划轨迹;
98.控制模块3,用于根据第一规划轨迹控制车辆执行相应操作。
99.这里,相比于传统预测和决策规划解耦的方法,预测的动态感受野问题不会得到任何解决,因此,下游的决策规划模块受限于长远的动态考量,无法做出长远的决策,同时无效预测也会增加决策规划模块的维护难度。
100.本技术使用的强化学习算法可以获得相比状态机更好的泛化能力和更小的维护开销。同时使用hrl的方法,能够更好的处理普通强化学习方法在自动驾驶奖励值稀疏学习难度较大的情况。
101.进一步的,感知融合数据包括障碍物坐标信息、红绿灯种类信息和车辆类别信息;定位数据包括自车的位置信息和周围车辆的位置信息;控制数据包括所述自车的状态信息和方向盘转角信息。
102.进一步的,该装置还包括:
103.预训练模块(未示出),用于将上游数据输入到车辆预测算法中进行预训练,构建预测模型;
104.获取模块(未示出),用于获取当前上游数据;
105.输入模块(未示出),用于将当前上游数据输入到预测模型中,输出得到预测轨迹;
106.其中,车辆预测算法为栅格法、lstm或锚点法。
107.本发明实施例提供了基于分层强化学习的自动驾驶决策装置,包括:获取上游数据,上游数据包括感知融合数据、定位数据和控制数据;
108.将上游数据输入到深度学习的模型中,输出得到感受野模型和第一预测轨迹;将感受野模型和第一预测轨迹输入到强化学习算法中,输出得到第一规划轨迹;根据第一规划轨迹控制车辆执行相应操作;将深度学习的模型和强化学习算法结合,确保了决策的稳定性和前瞻性,降低了预测的计算消耗。
109.本发明实施例还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例提供的基于分层强化学习的自动驾驶决策方法的步骤。
110.本发明实施例还提供一种具有处理器可执行的非易失的程序代码的计算机可读介质,计算机可读介质上存储有计算机程序,计算机程序被处理器运行时执行上述实施例的基于分层强化学习的自动驾驶决策方法的步骤。
111.本发明实施例所提供的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
112.所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
113.另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
114.所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
115.在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
116.最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
技术特征:
1.一种基于分层强化学习的自动驾驶决策方法,其特征在于,所述方法包括:获取上游数据,所述上游数据包括感知融合数据、定位数据和控制数据;将所述上游数据输入到深度学习的模型中,输出得到感受野模型和第一预测轨迹;将所述感受野模型和所述第一预测轨迹输入到强化学习算法中,输出得到第一规划轨迹;根据所述第一规划轨迹控制车辆执行相应操作。2.根据权利要求1所述的基于分层强化学习的自动驾驶决策方法,其特征在于,所述感知融合数据包括障碍物坐标信息、红绿灯种类信息和车辆类别信息;所述定位数据包括自车的位置信息和周围车辆的位置信息;所述控制数据包括所述自车的状态信息和方向盘转角信息。3.根据权利要求1所述的基于分层强化学习的自动驾驶决策方法,其特征在于,所述方法还包括:将所述上游数据输入到车辆预测算法中进行预训练,构建预测模型;获取当前上游数据;将所述当前上游数据输入到所述预测模型中,输出得到所述预测轨迹;其中,车辆预测算法为栅格法、lstm或锚点法。4.根据权利要求1所述的基于分层强化学习的自动驾驶决策方法,其特征在于,所述方法还包括:将所述感受野模型和所述预测轨迹进行动态排列组合,得到下层输入数据;将所述下层输入数据通过所述强化学习算法进行训练,得到综合评估;将所述综合评估进行数学公式映射,得到决策模块评价和预测模块评价。5.根据权利要求1所述的基于分层强化学习的自动驾驶决策方法,其特征在于,所述方法还包括:根据环境信息和上一时刻的决策实时动态调整所述感受野模型,得到调整后的感受野模型;在当前时刻对所述调整后的感受野模型进行预测,得到动态变换的第二预测轨迹;根据所述调整后的感受野模型和所述第二预测轨迹,生成第二规划轨迹。6.一种基于分层强化学习的自动驾驶决策装置,其特征在于,所述装置包括:预测模块,用于获取上游数据,所述上游数据包括感知融合数据、定位数据和控制数据;将所述上游数据输入到深度学习的模型中,输出得到感受野模型和第一预测轨迹;决策规划模块,用于将所述感受野模型和所述第一预测轨迹输入到强化学习算法中,输出得到第一规划轨迹;控制模块,用于根据所述第一规划轨迹控制车辆执行相应操作。7.根据权利要求6所述的基于分层强化学习的自动驾驶决策装置,其特征在于,所述感知融合数据包括障碍物坐标信息、红绿灯种类信息和车辆类别信息;所述定位数据包括自车的位置信息和周围车辆的位置信息;所述控制数据包括所述自车的状态信息和方向盘转角信息。8.根据权利要求6所述的基于分层强化学习的自动驾驶决策装置,其特征在于,所述装置还包括:
预训练模块,用于将所述上游数据输入到车辆预测算法中进行预训练,构建预测模型;获取模块,用于获取当前上游数据;输入模块,用于将所述当前上游数据输入到所述预测模型中,输出得到所述预测轨迹;其中,车辆预测算法为栅格法、lstm或锚点法。9.一种电子设备,包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至5任一项所述的方法。10.一种具有处理器可执行的非易失的程序代码的计算机可读介质,其特征在于,所述程序代码使所述处理器执行所述权利要求1至5任一项所述的方法。
技术总结
本发明提供了基于分层强化学习的自动驾驶决策方法和装置,包括:获取上游数据,上游数据包括感知融合数据、定位数据和控制数据;将上游数据输入到深度学习的模型中,输出得到感受野模型和第一预测轨迹;将感受野模型和第一预测轨迹输入到强化学习算法中,输出得到第一规划轨迹;根据第一规划轨迹控制车辆执行相应操作;将深度学习的模型和强化学习算法结合,确保了决策的稳定性和前瞻性,降低了预测的计算消耗。算消耗。算消耗。
技术研发人员:李东晨 张艺浩 魏崇山 徐修信 韩志华
受保护的技术使用者:苏州挚途科技有限公司
技术研发日:2022.03.25
技术公布日:2022/5/25
转载请注明原文地址:https://tc.8miu.com/read-12423.html