本公开总体上涉及自主驾驶系统,并且更具体地涉及用于基于神经网络的运动预测的系统和方法。
背景技术:
1、自主驾驶利用感测技术进行鲁棒动态物体感知(perception),并顺序地使用各种感知传感器进行可靠且安全的车辆决策。在各种感知传感器当中,摄像头和lidar是被用于周围物体识别的两个主要传感器。摄像头提供交通场景的语义上丰富的视觉特征,而lidar提供能够确定物体距离的高分辨率点云。
2、本领域技术人员可以理解,确定环境状态对于部署自主车辆(autonomousvehicle,av)是关键的。av的准确环境状态信息在促进运动规划和提供顺畅的用户体验方面是有用的。av的环境状态的估计通常包括两个任务:(1)感知,其从背景中标识前景物体;以及(2)运动预测,其预测诸如前景物体之类的物体的未来轨迹。在过去的几年中,已经开发了各种方法,以借助于深度学习来独立地或联合地处理这两个任务。
3、传统的环境感知方法主要依赖于边界框检测技术,其通过基于摄像头数据的2d物体检测、基于lidar数据的3d物体检测或基于融合的检测来实现。然后将所检测到的边界框馈送到物体跟踪器中,随后是运动预测器。一些最近的工作将所有这些模块实现为端到端框架,其直接生成边界框以及未来轨迹。
4、然而,由于对物体检测的依赖性,这些状态估计策略倾向于在实际交通的开放集场景中失败。特别地,物体检测器难以推广到从未呈现在训练集中的类(在深度学习中),从而导致下游估计模块的失效。
5、环境状态检测和运动预测的一些替代解决方案包括通过使用占用网格图(occupancy grid map,ogm)来表示3d环境信息。ogm将环境的3d点云离散化为相等的2d网格单元,各个2d网格单元皆包含对应空间被至少一个点占用的置信度。利用这种设计,可以使用ogm指定未来的可驾驶空间,从而为运动规划提供支持。然而,ogm的一个主要弱点是难以找到跨时间的2d网格单元之间的对应。这使得难以明确地对很大程度上时间相关的物体动力学(dynamic)进行建模。另外,物体类别信息通常在ogm中被丢弃,因此,不可能为了关系理解而考虑对交通参与者的运动的类别特定的约束。
6、ogm的另一扩展是在鸟瞰图(bev)中表示世界状态,其中,各个ogm单元又包括关于单元运动和单元类别的信息,但不包括关于特定物体的运动或类别的信息。虽然bev是对ogm的改进,但是单元的固定网格的使用导致离散化误差,其中环境的连续性质没有被准确地捕获。更具体地,bev单元可能包含来自多个单独的物体的点,各个物体皆具有不同的类别和/或运动。就向单元中的每一个点指派相同的类别和运动值来说,这样的系统无法正确地表示世界的真实状态。
7、因此,认识到需要用于诸如av的物体的运动的更准确的运动预测和状态估计的改进的系统和方法。
技术实现思路
1、为此,一些实施方式的目的是在自主驾驶的背景下解决上述问题。
2、一些实施方式基于这样的认识,即,需要一种用于估计环境的至少一些点的运动信息而无需点云的近似的点云运动传感器。这是因为点云根据它们在单元或bev的2d网格上的投影的近似对于各种交通辅助和控制应用是不利的,诸如控制自主装置(例如,av或机器人)、交通估计、异常检测、人行横道警告生成以及调度交通灯。例如,距受控车辆一定距离的自行车可以仅由几个点来表示,并且在网格或bev图中这几个点的近似可能去除重要信息。
3、为此,一些实施方式的目的是为输入的3d点云的各个点提供运动信息。点的运动信息的示例包括点的静态或动态分类、示出点从先前点云到当前点云的位移的位移向量、示出点从当前点云到下一点云的运动预测的预测向量。
4、一些实施方式基于至少两个障碍物正在妨碍这些目的的实现的理解。首先,在3d点云中可能存在太多的点,使得处理所有点及其彼此的时间关系在计算上是昂贵的,甚至是禁止的。第二,难以提供不同3d点云中的对应点之间的指示其运动的时间相关性。例如,可以使用从光学和流体分析借用的一些技术来找到点对应,但是这些技术在计算上也是昂贵的。
5、为此,一些实施方式的目的是提供一种系统和方法,其适于通过利用时间不变的空间相邻空间来找到跨时间的点对应,并且以计算上高效的方式提取时空特征,而不需要建立后续3d点云中的点之间的对应。
6、一些实施方式基于这样的认识,即,可以利用不同时间实例的关注点的邻域的位置到位置对应,来替换点到点对应以及不同对应点的比较。为此,比较点的邻域的特征允许在时间和空间上执行局部特征比较,而不需要建立对应点。这是因为在点云的情况下,对应点很可能落在邻域内,并且可以对邻域的特征执行比较,这与单独点的特征形成对比。这提供了计算复杂度的降低,这在比如实时自主驾驶应用的时间敏感应用中是有利的。
7、为此,一些实施方式公开了一种运动传感器,其包括对当前3d点云的各个点的时空特征进行编码的编码器以及对各个点的时空编码进行解码以生成运动信息的解码器。以两个步骤来执行编码。在第一步骤中,仅在与当前3d点云中的关注点的位置相对应的位置的局部邻域中考虑单独3d点云的空间特征。一些实施方式基于这样的认识,即,这些特征是局部的并且是独立地为各个点云确定的,因此计算开销是有界的。而且,因为针对点位置的邻域而不是针对对应点来确定特征,所以不需要建立这种点到点对应。因此,第一步骤计算不同时间实例的当前3d帧中的当前点的邻域区的特征的空间编码。
8、接下来,在第二步骤期间,将不同时间实例的特征的空间编码组合在一起,以生成当前3d点云中的点的时空编码。因此,时间相关性对于对应像素的估计是不可知的。换句话说,时间相关性不是基于像素的,而是基于位置的。一些实施方式基于这样的认识,即,以这种方式的计算减少了用于确定当前3d点云中的所有点的这种时空编码的计算要求。
9、各种实施方式基于这样的认识,即,可靠地感知环境状态(特别是物体的存在及其运动行为)的能力对于自主驾驶是至关重要的。为此,一些实施方式提供了一种从3d点云联合执行感知和运动预测的高效的基于深度神经网络的系统。该系统能够把一对lidar扫描作为输入,并且针对第二扫描中的各个点输出将所述点分类成语义类集合中的一个语义类的分类以及指示所述点在世界坐标系内的运动的运动向量两者。
10、一些实施方式提供作为运动估计器的部分的时空金字塔网络,其以分层方式提取输入3d点云的深度空间和时间特征。为了加强预测在空间和时间两者上的平滑性,该系统的训练还以新颖的空间和时间一致性损失来正则化。所提出的系统可以用作本领域中已知的基于边界框的系统的备份,并且在自主驾驶应用中向运动规划器提供补充信息。
11、根据实施方式,提供一种用于估计环境的至少一些点的运动信息的点云运动传感器。所述运动传感器包括深度传感器,例如lidar,所述深度传感器被配置成感测动态环境以收集所述环境的三维(3d)点云的时间序列,所述3d点云的时间序列包括当前3d点云和先前3d点云。所述运动传感器还包括运动估计器,所述运动估计器经由有线和无线通信信道中的一者或组合操作地连接至所述深度传感器。所述运动估计器被配置成利用神经网络来迭代地处理所述3d点云的序列。所述神经网络包括:编码器,所述编码器用于提供所述3d点云中的各个3d点云的各个点的时空编码;以及解码器,所述解码器用于对所述时空编码进行解码,以生成所述3d点云中的各个3d点云的各个点的运动信息。为了对当前3d点云的当前点进行编码,所述编码器被配置成提取当前3d点云中的位于当前点的位置附近的相邻点的特征,以生成当前帧中的当前点的当前空间编码。所述编码器还被配置成提取先前3d点云中的位于先前3d点云中的与当前点的位置相对应的位置附近的相邻点的特征,以生成当前点在先前帧中的先前空间编码。所述编码器还被配置成组合所述当前空间编码和所述先前空间编码,以生成当前点的时空编码。
12、根据另一实施方式,提供一种用于估计环境的至少一些点的运动信息的计算机实现方法。所述方法包括感测动态环境以收集所述环境的三维(3d)点云的时间序列,所述3d点云的时间序列包括当前3d点云和先前3d点云。所述方法还包括利用神经网络迭代地估计所述3d点云的序列的运动信息。所述神经网络包括:编码器,所述编码器提供所述3d点云中的各个3d点云的各个点的时空编码;以及解码器,所述解码器对所述时空编码进行解码,以生成所述3d点云中的各个3d点云的各个点的运动信息。所述编码器被配置成提取当前3d点云中的位于当前点的位置附近的相邻点的特征,以生成当前帧中的当前点的当前空间编码。所述编码器还被配置成提取先前3d点云中的位于先前3d点云中的与当前点的位置相对应的位置附近的相邻点的特征,以生成当前点在先前帧中的先前空间编码。所述编码器还被配置成组合所述当前空间编码和所述先前空间编码,以生成当前点的时空编码。所述方法然后包括输出所估计的运动信息。
1.一种点云运动传感器,所述点云运动传感器用于估计环境的至少一些点的运动信息,所述点云运动传感器包括:
2.一种控制器,所述控制器被配置成,基于由根据权利要求1所述的运动传感器确定的至少一些点的所述运动信息,控制在所述动态环境中移动的自主装置。
3.一种在动态环境中移动的自主装置,所述自主装置包括:
4.一种交通辅助系统,所述交通辅助系统操作地连接至根据权利要求1所述的运动传感器,所述交通辅助系统包括控制器,所述控制器被配置成,基于至少一些点的所述运动信息来执行控制动作,所述控制动作包括交通估计、异常检测、人行横道警告生成以及调度交通信号灯中的一者或组合。
5.根据权利要求1所述的运动传感器,其中,当前3d点云和先前3d点云中的相邻点被限制于以当前3d点云中的当前点的位置为中心的球体内。
6.根据权利要求5所述的运动传感器,其中,当前3d点云中的相邻点的特征和先前3d点云中的相邻点的特征是使用加权核函数来提取的,所述加权核函数提取关于与当前3d点云和先前3d点云的在对应球体中的相邻点不同的多个代理点的特征。
7.根据权利要求5所述的运动传感器,其中,当前3d点云中的相邻点的特征和先前3d点云中的相邻点的特征是通过利用多层感知器处理当前3d点云的提取特征和先前3d点云的提取特征的拼接来组合的。
8.根据权利要求5所述的运动传感器,其中,所述加权核函数的权重是所述神经网络的由当前点云的所有点共享的可训练参数。
9.根据权利要求1所述的运动传感器,其中,所述神经网络包括收缩分支和扩展分支,所述收缩分支顺序地对所述收缩分支的输入进行下采样,所述扩展分支顺序地对所述扩展分支的输入进行上采样,其中,所述收缩分支包括一对或多对所述编码器以及下采样层,并且其中,所述扩展分支包括一对或多对所述解码器以及上采样层。
10.根据权利要求8所述的运动传感器,其中,所述神经网络包括至少一个跳跃连接,所述至少一个跳跃连接使得聚合层能够融合来自所述编码器中的一个编码器和所述解码器中的一个解码器两者的特征。
11.根据权利要求8所述的运动传感器,其中,所述收缩分支具有多个编码器,所述多个编码器包括第一编码器和第二编码器,所述第二编码器被布置成处理所述第一编码器的下采样输出,所述下采样输出指示当前点云的时空特征的当前编码,其中,所述第二编码器处理当前编码以及在先前迭代期间确定的先前点云的对应编码。
12.根据权利要求8所述的运动传感器,其中,所述收缩分支具有多个编码器,所述多个编码器包括第一编码器和第二编码器,所述第二编码器被布置成处理所述第一编码器的下采样输出,其中,所述编码器被配置成,基于点云序列中的点云次序来区分当前点云与先前点云,其中,所述运动估计器被配置成:
13.根据权利要求1所述的运动传感器,其中,所述神经网络是多头网络,所述多头网络处理所述3d点云的序列以生成当前点云中的每一个单个3d点的预测的运动向量和估计的运动状态。
14.根据权利要求1所述的运动传感器,其中,所述神经网络是多头网络,所述多头网络处理所述3d点云的序列以生成当前点云中的每一个单个3d点的语义标签和估计的运动状态,其中,所述神经网络包括被训练以从各个3d点云提取语义特征的分割神经网络、被训练以估计所述语义标签的分割头、被训练以基于跨时间戳的所述语义特征来提取运动特征的点运动神经网络、以及被训练以估计所述运动状态的运动状态头。
15.一种用于估计环境的至少一些点的运动信息的计算机实现方法,所述计算机实现方法包括以下步骤:
16.根据权利要求15所述的计算机实现方法,其中,当前3d点云和先前3d点云中的相邻点被限制于以当前3d点云中的当前点的位置为中心的球体内。
17.根据权利要求16所述的计算机实现方法,其中,当前3d点云中的相邻点的特征和先前3d点云中的相邻点的特征是使用加权核函数来提取的,所述加权核函数提取关于与当前3d点云和先前3d点云的在对应球体中的相邻点不同的多个代理点的特征。
18.根据权利要求16所述的计算机实现方法,其中,当前3d点云中的相邻点的特征和先前3d点云中的相邻点的特征是通过利用多层感知器处理当前3d点云的提取特征和先前3d点云的提取特征的拼接来组合的。
19.根据权利要求16所述的计算机实现方法,其中,所述加权核函数的权重是所述神经网络的由当前点云的所有点共享的可训练参数。
20.根据权利要求15所述的计算机实现方法,其中,所述神经网络包括收缩分支和扩展分支,所述收缩分支顺序地对所述收缩分支的输入进行下采样,所述扩展分支顺序地对所述扩展分支的输入进行上采样,其中,所述收缩分支包括一对或多对所述编码器以及下采样层,并且其中,所述扩展分支包括一对或多对所述解码器以及上采样层。
21.根据权利要求20所述的计算机实现方法,其中,所述神经网络包括至少一个跳跃连接,所述至少一个跳跃连接使得聚合层能够融合来自所述编码器中的一个编码器和所述解码器中的一个解码器两者的特征。
22.根据权利要求20所述的计算机实现方法,其中,所述收缩分支具有多个编码器,所述多个编码器包括第一编码器和第二编码器,所述第二编码器被布置成处理所述第一编码器的下采样输出,所述下采样输出指示当前点云的时空特征的当前编码,其中,所述第二编码器处理当前编码以及在先前迭代期间确定的先前点云的对应编码。
23.根据权利要求20所述的计算机实现方法,其中,所述收缩分支具有多个编码器,所述多个编码器包括第一编码器和第二编码器,所述第二编码器被布置成处理所述第一编码器的下采样输出,其中,所述编码器被配置成,基于点云序列中的点云次序来区分当前点云与先前点云,其中,所述运动估计器被配置成:
24.根据权利要求15所述的计算机实现方法,其中,所述神经网络是多头网络,所述多头网络处理所述3d点云的序列以生成当前点云中的每一个单个3d点的预测的运动向量和估计的运动状态。
25.根据权利要求15所述的计算机实现方法,其中,所述神经网络是多头网络,所述多头网络处理所述3d点云的序列以生成当前点云中的每一个单个3d点的语义标签和估计的运动状态,其中,所述神经网络包括被训练以从各个3d点云提取语义特征的分割神经网络、被训练以估计所述语义标签的分割头、被训练以基于跨时间戳的所述语义特征来提取运动特征的点运动神经网络、以及被训练以估计所述运动状态的运动状态头。