本案涉及自动驾驶控制,尤其涉及一种考虑目标车道后车社会偏好的安全约束行为决策系统。
背景技术:
1、由于受实时交通状况、自身情绪等多重可变因素的共同影响,目标车道后车的社会偏好往往具有一定的时变性和波动性,例如利他型驾驶员在与邻车突然变道的交互过程中,有时会因情绪波动而突然表现出不让道等利己性社会偏好,这使得自动驾驶行为决策变得更加复杂。
技术实现思路
1、本案的目的在于提出一种考虑目标车道后车社会偏好的安全约束行为决策系统,能够根据目标车道后车的社会偏好的时变性和波动性,进行有效的自动驾驶行为决策。具体技术方案如下。
2、第一方面,本案提出一种考虑目标车道后车社会偏好的安全约束行为决策系统,所述系统采用分层强化学习实现自动驾驶行为决策,包括第一社会偏好识别模型、第二社会偏好识别模型、上层模块和下层模块;所述第一社会偏好识别模型,被配置用于识别进入自主车辆范围内的邻车道后方最近车辆的社会偏好类型,获得第一识别结果;所述第二社会偏好识别模型,被配置用于识别目标车道后方最近的车辆的社会偏好类型,获得第二识别结果;所述上层模块,被配置为根据自主车辆行车状况、邻车行车状况和第一识别结果进行自动驾驶行为决策;在第一识别结果为利己型时,所述自动驾驶行为决策为向其所在车道换道时,则进行惩罚;所述下层模块,被配置为在自主车辆开始执行左换道或右换道时,若第二识别结果为利己型,则所执行的自动驾驶行为决策为换道返回。
3、在上述技术方案的一种实施方式中,所述第一社会偏好识别模型采用svm模型,其训练数据采用主成分因子分析pca结合kmeans的方法进行聚类。
4、在上述技术方案的一种实施方式中,所述第二社会偏好识别模型采用svm模型,其训练数据采用主成分因子分析pca结合分层聚类进行换道过程中目标车道后车社会偏好的聚类。
5、在上述技术方案的一种实施方式中,所述上层模块采用ppo算法进行训练学习,所述下层模块采用dqn算法进行训练学习。
6、在上述技术方案的一种实施方式中,所述上层模块采用cnn架构,所述下层模块采用lstm-cnn架构。
7、在上述技术方案的一种实施方式中,所述第二识别结果基于目标车道后车纵向加速度均值、目标车道后车纵向最大加速度、目标车道后车纵向加速度标准差、目标车道后车纵向急动度均值、目标车道后车纵向最大急动度均值、目标车道后车纵向急动度标准差获取。
8、在上述技术方案的一种实施方式中,所述第一识别结果基于跟驰车辆纵向速度均值、跟驰车辆纵向速度最大值、跟驰车辆纵向速度标准差、跟驰车辆纵向加速度均值、跟驰车辆纵向加速度最大值、跟驰车辆纵向速度标准差、跟驰车辆跟驰距离均值、跟驰车辆跟驰距离最小值、跟驰车辆跟驰距离标准差获取,所述跟驰车辆为进入自主车辆范围内的邻车道后方最近车辆。
9、在上述技术方案的一种实施方式中,所述自动驾驶行为决策所对应的动作,其路径轨迹由3个采样点构成。
10、第二方面,本案提出一种计算机可读存储介质,存储有能够被处理器加载并执行如上述任一种系统的计算机程序。
11、第三方面,本案提出一种考虑目标车道后车社会偏好的安全约束行为决策方法,所述方法包括下述步骤:识别进入自主车辆范围内的邻车道后方最近车辆的社会偏好类型,获得第一识别结果,并根据自主车辆行车状况、邻车行车状况和第一识别结果进行自动驾驶行为决策;在第一识别结果为利己型时,所述自动驾驶行为决策为向其所在车道换道时,则进行惩罚;在自主车辆开始执行左换道或右换道时,若第二识别结果为利己型,则所执行的自动驾驶行为决策为换道返回。
12、本案的有益技术效果:相对于现有技术,有助于自动驾驶车辆在动态环境中提高最优行为决策策略效率,提高自动驾驶车辆在多车道动态复杂环境下的安全。
1.一种考虑目标车道后车社会偏好的安全约束行为决策系统,其特征在于,所述系统采用分层强化学习实现自动驾驶行为决策,包括第一社会偏好识别模型、第二社会偏好识别模型、上层模块和下层模块;
2.根据权利要求1所述的系统,其特征在于,所述第一社会偏好识别模型采用svm模型,其训练数据采用主成分因子分析pca结合kmeans的方法进行聚类。
3.根据权利要求1所述的系统,其特征在于,所述第二社会偏好识别模型采用svm模型,其训练数据采用主成分因子分析pca结合分层聚类方法进行换道过程中目标车道后车社会偏好的聚类。
4.根据权利要求1所述的系统,其特征在于,所述上层模块采用ppo算法进行训练学习,所述下层模块采用dqn算法进行训练学习。
5.根据权利要求1所述的系统,其特征在于,所述上层模块采用cnn架构,所述下层模块采用lstm-cnn架构。
6.根据权利要求1所述的系统,其特征在于,所述第二识别结果基于目标车道后车纵向加速度均值、目标车道后车纵向最大加速度、目标车道后车纵向加速度标准差、目标车道后车纵向急动度均值、目标车道后车纵向最大急动度均值、目标车道后车纵向急动度标准差获取。
7.根据权利要求1所述的系统,其特征在于,所述第一识别结果基于跟驰车辆纵向速度均值、跟驰车辆纵向速度最大值、跟驰车辆纵向速度标准差、跟驰车辆纵向加速度均值、跟驰车辆纵向加速度最大值、跟驰车辆纵向速度标准差、跟驰车辆跟驰距离均值、跟驰车辆跟驰距离最小值、跟驰车辆跟驰距离标准差获取,所述跟驰车辆为进入自主车辆范围内的邻车道后方最近车辆。
8.根据权利要求1所述的系统,其特征在于,所述自动驾驶行为决策所对应的动作,其路径轨迹由3个采样点构成。
9.一种计算机可读存储介质,其特征在于:存储有能够被处理器加载并执行如权利要求1至8中任一种系统的计算机程序。
10.一种考虑目标车道后车社会偏好的安全约束行为决策方法,其特征在于,所述方法包括下述步骤:
