用于自动驾驶的速度规划方法、装置、设备、介质和车辆与流程

专利查询2024-07-27 82

1.本技术涉及人工智能技术领域，尤其涉及自动驾驶和深度学习技术，具体涉及一种用于自动驾驶的速度规划方法、装置、设备、介质和车辆。

背景技术：

2.在自动驾驶领域，需要对自动驾驶车辆进行速度规划。现有技术中的速度规划算法通常分为单时刻控制和多时刻规划两种。
3.其中，单时刻控制是指根据当前时刻的距离和速度信息，计算需要达到的期望速度，但该方法无法保证速度的全程最优，存在终点附近刹车过猛等潜在风险；多时刻规划方法则需要使用优化算法或者在线筛选轨迹等算法，然而这些算法的计算量大，存在计算时间被限制的情况，同样会导致无法保证得到速度的全局最优解。

技术实现要素：

4.本技术提供一种用于自动驾驶的速度规划方法、装置、设备、介质和车辆，以在不占用大量计算资源的前提下，保证得到速度规划的全局最优解。
5.第一方面，本技术提供了一种用于自动驾驶的速度规划方法，包括：
6.获取车辆的当前状态，所述当前状态至少包括剩余行驶距离和当前速度；
7.根据所述当前状态和预先确定的状态表，对动作进行插值，得到所述当前状态的目标动作，其中，所述状态表是基于强化学习方法确定，包括多个状态和每个状态下执行的动作，所述动作至少包括加速度。
8.第二方面，本技术还提供了一种用于自动驾驶的速度规划装置，包括：
9.状态获取模块，用于获取车辆的当前状态，所述当前状态至少包括剩余行驶距离和当前速度；
10.插值模块，用于根据所述当前状态和预先确定的状态表，对动作进行插值，得到所述当前状态的目标动作，其中，所述状态表是基于强化学习方法确定，包括多个状态和每个状态下执行的动作，所述动作至少包括加速度。
11.第三方面，本技术还提供了一种电子设备，包括：
12.至少一个处理器；以及
13.与所述至少一个处理器通信连接的存储器；其中，
14.所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本技术任意实施例所述的用于自动驾驶的速度规划方法。
15.第四方面，本技术还提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行本技术任意实施例所述的用于自动驾驶的速度规划方法。
16.第五方面，本技术还提供了一种车辆，包括车体，所述车体上设置有本技术任意实
施例所述的电子设备。
17.根据本技术的技术方案，采用查表的方式替代神经网络，先基于强化学习方法离线确定状态表，然后通过在线查询的方式即可确定当前状态的目标动作，因此，在不占用大量计算资源的前提下，能够确保得到速度规划的全程最优解。
18.应当理解，本部分所描述的内容并非旨在标识本技术的关键或重要特征，也不用于限制本技术的范围。本技术的其它特征将通过以下的说明书而变得容易理解，上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。
附图说明
19.附图用于更好地理解本方案，不构成对本技术的限定。其中：
20.图1是根据本技术实施例的用于自动驾驶的速度规划方法的流程示意图；
21.图2是根据本技术实施例的用于自动驾驶的速度规划方法的流程示意图；
22.图3是根据本技术实施例的用于自动驾驶的速度规划装置的结构示意图；
23.图4是用来实现本技术实施例的用于自动驾驶的速度规划方法的电子设备的框图。
具体实施方式
24.以下结合附图对本技术的示范性实施例做出说明，其中包括本技术实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本技术的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。
25.图1是根据本技术实施例的用于自动驾驶的速度规划方法的流程示意图，本实施例可适用于为自动驾驶设备提供速度规划的情况，例如规划行进的加速度，涉及自动驾驶和深度学习等人工智能技术。该方法可由一种用于自动驾驶的速度规划装置来执行，该装置采用软件和/或硬件的方式实现，优选是配置于电子设备中，例如计算机设备等。如图1所示，该方法具体包括如下：
26.s101、获取车辆的当前状态，所述当前状态至少包括剩余行驶距离和当前速度。
27.自动驾驶的速度规划通常可以是指对加速度的规划，当进行加速度规划时，需要依据车辆的当前状态，也即剩余行驶距离和当前速度，从全局规划的角度来讲，不同的状态对应的速度规划也不相同。
28.其中，剩余行驶距离可以是自动驾驶车辆行驶至前方定点(目的地)的距离，此时状态中的速度是绝对速度，即自动驾驶车辆当前的行驶速度。此外，在对自动驾驶车辆前方障碍物进行感知的基础上，剩余行驶距离也可以是与前方障碍物之间的相对距离，当前方障碍物也是行驶中的车辆时，此时状态中的速度则是相对速度，即针对前方出现的障碍物车辆，自动驾驶车辆与该障碍物车辆之间的相对速度。因此，根据具体应用场景的不同，可以灵活确定自动驾驶车辆的当前状态。
29.此外，状态中还可以包括道路的坡度这一维度，根据剩余行驶距离、当前速度和坡度共同来进行后续的查表，以适用于具有坡度的路面，使得在具有坡度的路面上也能实现精确的速度规划。当然，根据应用场景的不同，在更加复杂的路况上行驶时，还可以根据实
际情况在状态中增加其他的维度，对此，本技术实施例不做任何限定。
30.s102、根据当前状态和预先确定的状态表，对动作进行插值，得到当前状态的目标动作，其中，状态表是基于强化学习方法确定，包括多个状态和每个状态下执行的动作，动作至少包括加速度。
31.具体的，状态表可以是预先离线确定的，这样，线上进行实时的速度规划时，就可以避免占用过多的计算资源。状态表中包括多个状态和每个状态下执行的动作，也就是说，基于强化学习的方法，先确定出全局规划中不同状态下执行的最优动作，并形成状态表，该动作可以包括加速度，那么线上就可以实时通过查表的方式来确定当前状态下该选择的最优动作。
32.需要说明的是，由于实际场景中的状态是连续的，而离线确定的状态表中各个状态是离散的，因此，还需要通过插值的手段来确定目标动作。具体而言，可以是先通过查表，确定当前状态在状态表中的位置，然后确定当前状态的临近状态所对应的动作，最后通过对这些动作进行插值来确定当前状态对应的目标动作。
33.由此，本技术实施例替代了传统的神经网络，基于强化学习的方法离线计算出状态表，在线通过查表进行速度规划，这不仅降低了计算资源，而且避免了因神经网络训练不全而导致对预测结果无法预期的问题。同时，由于状态表是可见的，在实际应用中可解释性较强，便于技术人员随时进行修正，其可控性和可设计性都比较强，适用范围更广。
34.本技术实施例的技术方案，先基于强化学习方法离线确定全局规划的状态表，采用查表的方式替代传统方法中的神经网络，然后通过在线查表并对动作进行插值的方式即可确定当前状态的目标动作，因此，既不会占用过多的计算资源，也能够确保得到速度规划的全程最优解，同时还保证了可解释性，并且可量产化。
35.图2是根据本技术实施例的用于自动驾驶的速度规划方法的流程示意图，本实施例在上述实施例的基础上进一步进行优化。如图2所示，该方法具体包括如下：
36.s201、基于离散化的状态创建状态网格，其中，所述状态网格中包括多个子网格，每个子网格的顶点表示一种状态。
37.具体的，预先获取距离边界和速度边界，然后在该边界构成的距离区间和速度区间内，分别对距离和速度进行离散化，由这些离散化的距离和速度构成多个离散化的状态，然后由这些离散化的状态构成状态网格。例如，横轴表示距离，纵轴表示速度，离散化后，根据横轴和纵轴上的离散化的点就可以构成一个网格，网格内的每一个点都可以表示一种状态，每相邻的四个点就可以构成一个子网格。
38.另外，在实际使用中，为了算法计算的便利性，可以将状态网格处理成二维状态矩阵，一个维度是距离，另一个维度是速度。
39.s202、基于离散化的动作，对状态网格中的状态进行插值，得到状态插值信息，其中，所述状态插值信息表示对状态网格中的状态施加动作后得到的下一个状态。
40.具体的，同样可以预先获取动作边界，在该动作边界对应的动作区间内对动作进行离散化，得到多个离散化的动作。然后，对状态网格中的每一个离散状态分别施加所有离散动作，那么针对所施加的每一个离散动作，都可以得到状态网格中所有状态的下一个状态，该下一个状态则是通过对状态网格中的状态进行插值并确定状态插值信息的方式记录下来，因此，状态插值信息就可以表示对状态网格中的状态施加动作后得到的下一个状态，
而且施加每个离散动作后都相应记录有状态插值信息。而对初始的离散化的状态网格进行插值，可以得到更加连续的状态，后续在此基础上再进行值迭代算法确定最优动作，则可以保证规划的动作的连续性，继而确保速度规划的准确性。
41.在一种实施方式中，可以基于离散化的动作，对状态网格中的状态进行重心插值，得到状态插值信息。而重心插值不需要计算插值多项式，计算复杂度低，而且插值精度高，能够保证插值的连续性。例如，施加某动作后得到的下一个状态，通常会落在状态网格内或状态网格上，也就是状态网格中的子网格内或子网格上，而一个子网格有四个顶点，那么基于重心插值，可以选择左上角三个顶点，按照这三个顶点的状态进行重心插值，得到下一个状态的状态插值信息，并且可以将这三个顶点的状态在全部状态中的索引和该下一个状态的点与这三个顶点之间的位置关系，记录在状态插值信息中。
42.s203、利用值迭代算法，根据预先设置的优化目标对应的目标代价函数，基于状态网格中的状态以及状态插值信息所表示的状态进行值迭代，确定状态网格中各状态对应的规划动作。
43.其中，值迭代的优化目标是指通过迭代得到状态网格中离散状态所对应的最优动作。目标代价函数包括状态代价函数和动作代价函数，例如可以将二者进行加权求和，得到最终的目标代价函数。而且，代价函数的设置不局限于二次，可以是高次或tanh等非线性的代价函数。
44.整体上，迭代过程中，对每一离散状态s(n)施加所有离散动作a(n)，得到所有状态的下一状态s(n+1)，并根据目标代价函数计算出下一状态的评价值，然后通过迭代，在所有评价值中选择最优值(例如最大值)所对应的动作a(n+1)，并使用a(n+1)替换更新a(n)。如果两次迭代中评价值相差小于1e-6，则认为得到最优的评价值及对应的动作。关于值迭代的具体算法和过程，此处不再详细赘述。
45.s204、将状态网格中的各状态及其对应的规划动作，作为状态表。
46.通过值迭代算法，可以得到全局规划的动作，也就是状态网格中每个状态下执行的最优动作。
47.s205、获取车辆的当前状态，所述当前状态至少包括剩余行驶距离和当前速度。
48.s206、在预先确定的状态表中确定当前状态所属的状态范围。
49.s207、对状态范围内各状态对应的动作进行重心插值，得到当前状态的目标动作。
50.由于状态表中的状态和动作是离散的，而实际应用中的状态是连续的，因此，需要对动作进行插值才能够确定每一个实时的状态对应的目标动作。具体的，可以通过查表确定当前状态在状态表中的位置，例如，确定当前状态落在状态表中的哪一个子网格，依据该子网格的四个顶点即可确定当前状态所属的状态范围。然后，根据当前状态在该子网格中的位置以及该子网格中左上角三个顶点状态对应的动作，对动作进行重心插值，即可得到当前状态下最优的目标动作。
51.本技术实施例的技术方案，摒弃了传统的基于网络模型的强化学习方法，采用查表的方式替代神经网络，离线计算出状态表，在线通过查表方式即可进行速度规划，因此，实现了在不占用大量计算资源的前提下，确保得到速度规划的全程最优解，同时还保证了可解释性，并且可量产化。此外，在执行值迭代算法时，将初始的状态网格进行插值，得到更加连续的状态，在此基础上再进行值迭代算法确定最优动作，则可以保证规划的动作的连
续性，确保速度规划的准确性。
52.图3是根据本技术实施例的用于自动驾驶的速度规划装置的结构示意图，本实施例可适用于为自动驾驶设备提供速度规划的情况，例如规划行进的加速度，涉及自动驾驶和深度学习等人工智能技术。该装置可实现本技术任意实施例所述的用于自动驾驶的速度规划方法。如图3所示，该装置300具体包括：
53.状态获取模块301，用于获取车辆的当前状态，所述当前状态至少包括剩余行驶距离和当前速度；
54.插值模块302，用于根据所述当前状态和预先确定的状态表，对动作进行插值，得到所述当前状态的目标动作，其中，所述状态表是基于强化学习方法确定，包括多个状态和每个状态下执行的动作，所述动作至少包括加速度。
55.可选的，所述装置还包括状态表确定模块，该状态表确定模块具体包括：
56.状态网格创建单元，用于基于离散化的状态创建状态网格，其中，所述状态网格中包括多个子网格，每个子网格的顶点表示一种状态；
57.状态插值单元，用于基于离散化的动作，对所述状态网格中的状态进行插值，得到状态插值信息，其中，所述状态插值信息表示对所述状态网格中的状态施加动作后得到的下一个状态；
58.值迭代单元，用于利用值迭代算法，根据预先设置的优化目标对应的目标代价函数，基于所述状态网格中的状态以及所述状态插值信息所表示的状态进行值迭代，确定所述状态网格中各状态对应的规划动作；
59.状态表确定单元，用于将所述状态网格中的各状态及其对应的规划动作，作为所述状态表。
60.可选的，所述状态插值单元具体用于：
61.基于离散化的动作，对所述状态网格中的状态进行重心插值，得到状态插值信息。
62.可选的，所述目标代价函数包括状态代价函数和动作代价函数。
63.可选的，所述插值模块302包括：
64.查表单元，用于在预先确定的状态表中确定所述当前状态所属的状态范围；
65.动作插值单元，用于对所述状态范围内各状态对应的动作进行重心插值，得到所述当前状态的目标动作。
66.本技术实施例提供的用于自动驾驶的速度规划装置300可执行本技术任意实施例提供的用于自动驾驶的速度规划方法，具备执行方法相应的功能模块和有益效果。本实施例中未详尽描述的内容可以参考本技术任意方法实施例中的描述。
67.根据本技术的实施例，本技术还提供了一种电子设备和一种可读存储介质。
68.如图4所示，是根据本技术实施例的用于自动驾驶的速度规划方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本技术的实现。
69.如图4所示，该电子设备包括：一个或多个处理器401、存储器402，以及用于连接各
部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示gui的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图4中以一个处理器401为例。
70.存储器402即为本技术所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本技术所提供的用于自动驾驶的速度规划方法。本技术的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本技术所提供的用于自动驾驶的速度规划方法。
71.存储器402作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本技术实施例中的用于自动驾驶的速度规划方法对应的程序指令/模块(例如，附图3所示的状态获取模块301和插值模块302)。处理器401通过运行存储在存储器402中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的用于自动驾驶的速度规划方法。
72.存储器402可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据实现本技术实施例的用于自动驾驶的速度规划方法的电子设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器402可选包括相对于处理器401远程设置的存储器，这些远程存储器可以通过网络连接至实现本技术实施例的用于自动驾驶的速度规划方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
73.实现本技术实施例的用于自动驾驶的速度规划方法的电子设备还可以包括：输入装置403和输出装置404。处理器401、存储器402、输入装置403和输出装置404可以通过总线或者其他方式连接，图4中以通过总线连接为例。
74.输入装置403可接收输入的数字或字符信息，以及产生与实现本技术实施例的用于自动驾驶的速度规划方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置404可以包括显示设备、辅助照明装置(例如，led)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(lcd)、发光二极管(led)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。
75.此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用asic(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出
装置。
76.这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(pld))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
77.为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，crt(阴极射线管)或者lcd(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
78.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(lan)、广域网(wan)、互联网和区块链网络。
79.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与vps服务中，存在的管理难度大，业务扩展性弱的缺陷。
80.此外，本技术实施例还提供了一种车辆，例如自动驾驶车辆，包括车体，其中，所述车体上设置有本技术任意实施例所述的电子设备。通过该电子设备，本技术实施例的自动驾驶车辆可以按照本技术实施例的速度规划方法进行速度规划，例如，在执行点对点行驶任务中进行全局速度规划。此外，车体上还可设置用于车辆感知的任意一种或多种传感器和感知模块，通过对周围环境和障碍物的感知，结合本技术实施例的速度规划方法进行全局速度规划，实现自动驾驶车辆的安全驾驶。
81.根据本技术实施例的技术方案，摒弃了传统的基于网络模型的强化学习方法，采用查表的方式替代神经网络，离线计算出状态表，在线通过查表方式即可进行速度规划，因此，实现了在不占用大量计算资源的前提下，确保得到速度规划的全程最优解，同时还保证了可解释性，并且可量产化。此外，在执行值迭代算法时，将初始的状态网格进行插值，得到更加连续的状态，在此基础上再进行值迭代算法确定最优动作，则可以保证规划的动作的连续性，确保速度规划的准确性。
82.应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例
如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本技术公开的技术方案所期望的结果，本文在此不进行限制。
83.上述具体实施方式，并不构成对本技术保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本技术的精神和原则之内所作的修改、等同替换和改进等，均应包含在本技术保护范围之内。

技术特征：
1.一种用于自动驾驶的速度规划方法，包括：获取车辆的当前状态，所述当前状态至少包括剩余行驶距离和当前速度；根据所述当前状态和预先确定的状态表，对动作进行插值，得到所述当前状态的目标动作，其中，所述状态表是基于强化学习方法确定，包括多个状态和每个状态下执行的动作，所述动作至少包括加速度。2.根据权利要求1所述的方法，其中，所述状态表的确定方法包括：基于离散化的状态创建状态网格，其中，所述状态网格中包括多个子网格，每个子网格的顶点表示一种状态；基于离散化的动作，对所述状态网格中的状态进行插值，得到状态插值信息，其中，所述状态插值信息表示对所述状态网格中的状态施加动作后得到的下一个状态；利用值迭代算法，根据预先设置的优化目标对应的目标代价函数，基于所述状态网格中的状态以及所述状态插值信息所表示的状态进行值迭代，确定所述状态网格中各状态对应的规划动作；将所述状态网格中的各状态及其对应的规划动作，作为所述状态表。3.根据权利要求2所述的方法，其中，所述基于离散化的动作，对所述状态网格中的状态进行插值，得到状态插值信息，包括：基于离散化的动作，对所述状态网格中的状态进行重心插值，得到状态插值信息。4.根据权利要求2所述的方法，其中，所述目标代价函数包括状态代价函数和动作代价函数。5.根据权利要求1所述的方法，其中，所述根据所述当前状态和预先确定的状态表，对动作进行插值，得到所述当前状态的目标动作，包括：在预先确定的状态表中确定所述当前状态所属的状态范围；对所述状态范围内各状态对应的动作进行重心插值，得到所述当前状态的目标动作。6.一种用于自动驾驶的速度规划装置，包括：状态获取模块，用于获取车辆的当前状态，所述当前状态至少包括剩余行驶距离和当前速度；插值模块，用于根据所述当前状态和预先确定的状态表，对动作进行插值，得到所述当前状态的目标动作，其中，所述状态表是基于强化学习方法确定，包括多个状态和每个状态下执行的动作，所述动作至少包括加速度。7.根据权利要求6所述的装置，还包括状态表确定模块，该状态表确定模块具体包括：状态网格创建单元，用于基于离散化的状态创建状态网格，其中，所述状态网格中包括多个子网格，每个子网格的顶点表示一种状态；状态插值单元，用于基于离散化的动作，对所述状态网格中的状态进行插值，得到状态插值信息，其中，所述状态插值信息表示对所述状态网格中的状态施加动作后得到的下一个状态；值迭代单元，用于利用值迭代算法，根据预先设置的优化目标对应的目标代价函数，基于所述状态网格中的状态以及所述状态插值信息所表示的状态进行值迭代，确定所述状态网格中各状态对应的规划动作；状态表确定单元，用于将所述状态网格中的各状态及其对应的规划动作，作为所述状
态表。8.根据权利要求7所述的装置，其中，所述状态插值单元具体用于：基于离散化的动作，对所述状态网格中的状态进行重心插值，得到状态插值信息。9.根据权利要求7所述的装置，其中，所述目标代价函数包括状态代价函数和动作代价函数。10.根据权利要求6所述的装置，其中，所述插值模块包括：查表单元，用于在预先确定的状态表中确定所述当前状态所属的状态范围；动作插值单元，用于对所述状态范围内各状态对应的动作进行重心插值，得到所述当前状态的目标动作。11.一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任一项所述的用于自动驾驶的速度规划方法。12.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使计算机执行权利要求1-5中任一项所述的用于自动驾驶的速度规划方法。13.一种车辆，包括车体，其中，所述车体上设置有如权利要求11所述的电子设备。

技术总结
本申请公开了一种用于自动驾驶的速度规划方法、装置、设备和介质，涉及自动驾驶和深度学习等人工智能技术。具体实现方案为：获取车辆的当前状态，所述当前状态至少包括剩余行驶距离和当前速度；根据所述当前状态和预先确定的状态表，对动作进行插值，得到所述当前状态的目标动作，其中，所述状态表是基于强化学习方法确定，包括多个状态和每个状态下执行的动作，所述动作至少包括加速度。本申请采用查表的方式替代神经网络，先离线确定状态表，然后通过在线查询的方式即可确定当前状态的目标动作，因此，在不占用大量计算资源的前提下，能够确保得到速度规划的全程最优解。够确保得到速度规划的全程最优解。够确保得到速度规划的全程最优解。

技术研发人员：秦文闯
受保护的技术使用者：百度在线网络技术（北京）有限公司
技术研发日：2020.11.06
技术公布日：2022/5/25

转载请注明原文地址:https://tc.8miu.com/read-23698.html

专利

最新回复(0)