基于拓扑语义地图提示的视觉语言导航规划方法和设备与流程

专利查询2025-11-03 3

本发明涉及机器人任务规划领域，尤其是涉及一种基于拓扑语义地图提示的视觉语言导航规划方法和设备。

背景技术：

1、空中无人机的视觉和语言导航(vln)是一项开创性的任务，它使无人机(uav)能够通过解释用户输入的自然语言指令和无人机第一视角的视觉信息，从而在室外环境中进行有效的导航飞行。这种技术可以消除人工操作无人机的需要，明显减轻了人与无人机交互的障碍，并可能有利于搜索、救援和快递物流等任务。尽管vln任务已经有较多研究，但大多数方法都是为室内或地面户外环境设计的，忽视了空中的视觉语言导航任务。大规模的三维空间、复杂的环境和丰富的语义使现有的vln方法难以适应空中城市场景。此外，必须强调的是，在空中vln任务中，随着指令范围的扩大，潜在探索区域的数量显著增加。错误的预测更容易导致错误累积，最终导致不可逆转的偏离正确路径。

2、近年来，考虑到大型语言模型(llms)强大的推理能力，一些vln方法开始使用llms作为代理来解析语言指令，并进行高层规划。由于llms的空间理解能力有限，现有研究尝试利用基于视觉观测的描述性文本来增强llms的场景理解能力。例如将视觉场景语义转换为文本描述，以便llms进行高层次规划。然而，在复杂户外环境中，这些方法可能由于局部视角的限制导致错误判断，或由于高层llms规划器与低层动作规划器之间的不一致而偏离正确方向。

3、因此，需要一种方法来同时解决上述两个问题。

技术实现思路

1、本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于拓扑语义地图提示的视觉语言导航规划方法和设备，以解决或部分解决局部视角的限制导致错误判断、高层llms规划器与低层动作规划器之间的不一致而偏离正确方向，从而导致llm推理准确性不理想的问题。

2、本发明的目的可以通过以下技术方案来实现：

3、本发明的一个方面，提供了一种基于拓扑语义地图提示的视觉语言导航规划方法，包括如下步骤：

4、针对输入的指令信息，通过提取得到地标词汇；

5、基于所述地标词汇和输入的无人机拍摄的图像信息，通过地标提取和分类，得到图像的2d语义掩码和对应的文本描述信息；

6、通过计算向量化后的地标词汇和文本描述信息之间的相似度，对所述2d语义掩码进行简化；

7、基于输入的无人机位置姿态信息和图像深度信息，将简化后的2d语义掩码投影到三维点云空间，形成拓扑后的鸟瞰视角的二维语义地图，更新预设的自然语言形式的语义矩阵；

8、基于所述语义矩阵和所述文本描述信息，利用大型语言模型实现视觉语言导航规划。

9、作为优选的技术方案，基于所述地标词汇和输入的无人机拍摄的图像信息，通过地标提取和分类，得到图像的2d语义掩码和对应的文本描述信息的过程包括如下步骤：

10、基于所述地标词汇，利用基于大型视觉语言模型的地标提取器在输入的无人机拍摄的图像信息上进行提取和分类，通过地标提取得到图像中的地标类型描述；

11、基于所述地标类型描述，利用检测模型得到各个地标在图像中各个地标的边界信息；

12、以图像中各个的地标边界信息作为提示，通过tap模型分割得到图像的2d语义掩码和对应的文本描述信息。

13、作为优选的技术方案，所述的通过计算向量化后的地标词汇和文本描述信息之间的相似度，对所述2d语义掩码进行简化的过程包括如下步骤：

14、针对每一个地标词汇，分别对地标词汇和所述文本描述信息进行向量化处理，并计算向量间的余弦相似度，若余弦相似度大于预设阈值，则当前的地标词汇在所述图像信息中可见，实现2d语义掩码的简化。

15、作为优选的技术方案，所述的语义矩阵用于表征导航空间，矩阵的大小随无人机的探索动态增长，矩阵中任意两个元素的相对位置和间距与实际中的距离对应。

16、作为优选的技术方案，所述的更新预设的自然语言形式的语义矩阵的过程包括如下步骤：

17、通过最近邻插值将所述二维语义地图中的地标类型映射到所述语义矩阵中，根据频率对所述语义矩阵中的每个元素下的地标类型进行排序，将频率最高的地标类型作为元素最终的地标类型，更新元素的数字标签。

18、作为优选的技术方案，基于所述语义矩阵和所述文本描述信息，利用大型语言模型实现视觉语言导航规划的过程包括如下步骤：

19、基于历史先验信息、环境定义信息、所述语义矩阵和所述文本描述信息，构建与预设格式匹配的提示信息并作为大型语言模型的输入，得到导航规划结果，实现视觉语言导航规划。

20、作为优选的技术方案，所述的环境定义信息包括环境描述和输出格式，所述的历史先验信息包括子目标规划和历史动作。

21、作为优选的技术方案，所述的针对输入的指令信息提取地标词汇包括如下步骤：

22、针对输入的指令信息进行指令分解，得到一个或多个子目标，针对子目标提取地标词汇。

23、本发明的另一个方面，提供了一种电子设备，包括：一个或多个处理器以及存储器，所述存储器内储存有一个或多个程序，所述一个或多个程序包括用于执行前述基于拓扑语义地图提示的视觉语言导航规划方法的指令。

24、本发明的另一个方面，提供了一种计算机可读存储介质，包括供电子设备的一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于执行前述基于拓扑语义地图提示的视觉语言导航规划方法的指令。

25、与现有技术相比，本发明至少具有以下有益效果之一：

26、(1)无需动作规划器或额外训练：针对无人机的视觉语言导航任务，本发明首先获取无人机的图像信息，通过地标提取、检测和分割得到2d语义掩码和对应的文本描述信息，并基于文本描述信息对2d语义编码进行简化，然后结合无人机位置姿态信息和图像深度信息构建/更新自然语言形式的语义矩阵，最后基于大型语言模型输出规划结果，本发明提供了基于大语言模型的端到端框架，本框架不需要额外训练，也不需要任何动作规划器。

27、(2)减小计算量的同时提高推导的准确性：针对过度分类的问题，本发明通过计算向量化后的地标词汇和文本描述信息之间的相似度，对2d语义掩码进行简化，简化了语义掩码并减少由于大量开放词汇类别导致的llms推理误导。

28、(3)空间感知能力强：通过基于输入的无人机位置姿态信息和图像深度信息，将简化后的2d语义掩码投影到三维点云空间，形成拓扑后的鸟瞰视角的二维语义地图并更新预设的自然语言形式的语义矩阵，将环境的拓扑结构、语义信息和物体间的距离信息统一到一个自然语言形式的矩阵中，有效地协助大语言模型进行空间推理。

技术特征：

1.一种基于拓扑语义地图提示的视觉语言导航规划方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于拓扑语义地图提示的视觉语言导航规划方法，其特征在于，基于所述地标词汇和输入的无人机拍摄的图像信息，通过地标提取和分类，得到图像的2d语义掩码和对应的文本描述信息的过程包括如下步骤：

3.根据权利要求1所述的一种基于拓扑语义地图提示的视觉语言导航规划方法，其特征在于，所述的通过计算向量化后的地标词汇和文本描述信息之间的相似度，对所述2d语义掩码进行简化的过程包括如下步骤：

4.根据权利要求1所述的一种基于拓扑语义地图提示的视觉语言导航规划方法，其特征在于，所述的语义矩阵用于表征导航空间，矩阵的大小随无人机的探索动态增长，矩阵中任意两个元素的相对位置和间距与实际中的距离对应。

5.根据权利要求1所述的一种基于拓扑语义地图提示的视觉语言导航规划方法，其特征在于，所述的更新预设的自然语言形式的语义矩阵的过程包括如下步骤：

6.根据权利要求1所述的一种基于拓扑语义地图提示的视觉语言导航规划方法，其特征在于，基于所述语义矩阵和所述文本描述信息，利用大型语言模型实现视觉语言导航规划的过程包括如下步骤：

7.根据权利要求6所述的一种基于拓扑语义地图提示的视觉语言导航规划方法，其特征在于，所述的环境定义信息包括环境描述和输出格式，所述的历史先验信息包括子目标规划和历史动作。

8.根据权利要求1所述的一种基于拓扑语义地图提示的视觉语言导航规划方法，其特征在于，所述的针对输入的指令信息提取地标词汇包括如下步骤：

9.一种电子设备，其特征在于，包括：一个或多个处理器以及存储器，所述存储器内储存有一个或多个程序，所述一个或多个程序包括用于执行如权利要求1-8任一所述基于拓扑语义地图提示的视觉语言导航规划方法的指令。

10.一种计算机可读存储介质，其特征在于，包括供电子设备的一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于执行如权利要求1-8任一所述基于拓扑语义地图提示的视觉语言导航规划方法的指令。

技术总结
本发明涉及一种基于拓扑语义地图提示的视觉语言导航规划方法和设备，方法首先由大语言模型将长指令分解成短指令并提取特定地标词汇，这些地标将由多模态模型在图像上进行提取和分类，生成相应的语义掩码和对应的文本描述信息，并基于文本描述信息对2D语义编码进行简化，然后结合无人机位置姿态信息和图像深度信息构建/更新自然语言形式的语义矩阵，最后基于大型语言模型输出规划结果，本发明提供了基于大语言模型的端到端框架，本框架不需要额外训练，也不需要任何动作规划器。与现有技术相比，本发明具有无需动作规划器或额外训练、减小计算量的同时提高推导的准确性、空间感知能力强等优点。

技术研发人员：王之港,赵斌,高云鹏,李学龙
受保护的技术使用者：上海人工智能创新中心
技术研发日：
技术公布日：2024/11/26

转载请注明原文地址:https://tc.8miu.com/read-31592.html

专利

最新回复(0)