基于跨模态大语言模型的机械臂智能交互与控制系统的构建方法与流程

专利查询2025-12-11 15

本发明涉及自动化，具体为基于跨模态大语言模型的机械臂智能交互与控制系统的构建方法。

背景技术：

1、在当前的自动化技术领域，机械臂系统的操作精度和自由度已达到先进水平，但其应用依然受限于预编程的路径和手动设定的操作流程。这种依赖导致机械臂无法灵活应对未预设的任务场景，需要大量人力进行细节规划，限制了其在复杂环境中的应用潜能。

2、与此同时，大语言模型(llm)，例如chatgpt等，已经展现出其在自然语言理解和任务规划方面的卓越能力。它们能够理解复杂的人类指令，自由交互，提出行动计划，并辅助决策过程。然而，它们的潜力囿于文本交互层面，尚未得到充分利用。

3、鉴于此，整合llm的机械臂控制系统提供了一个突破传统界限的解决方案。通过llm对人类语言的深入理解，机械臂能够接收和解析直接的语言指令，自动执行操作流程，实现对复杂任务场景的灵活响应。这不仅减轻了人工规划的负担，也显著提高了操作效率和适应性。

4、因此，本发明提出基于跨模态大语言模型的机械臂智能交互与控制系统的构建方法。

技术实现思路

1、本发明的目的在于提供基于跨模态大语言模型的机械臂智能交互与控制系统的构建方法，以解决上述背景技术中提出的问题。

2、为了解决上述技术问题，本发明提供如下技术方案：基于跨模态大语言模型的机械臂智能交互与控制系统的构建方法，所述系统的构建方法包括如下步骤：

3、s1、校准仿真模型

4、对机械臂的urdf模型进行参数修改，修正原始模型中的穿模问题和坐标错误；

5、在urdf模型中添加双边夹爪模型，并与原始机械臂模型关联；

6、在urdf模型中配置gazebo仿真属性，将urdf模型转化为完整的xacro模型，所述gazebo仿真属性包括但不限于颜色、摩擦系数、动力学参数；

7、使用move i t ass i stant工具配置xacro模型在rvi z仿真环境中的相关参数，所述相关参数包括但不限于碰撞矩阵、关节链、控制器及仿真次数；

8、s2、配置仿真环境

9、通过p l ann i ng scene对象，在rv i z仿真环境中添加放置物体的桌面，配置桌面的物理参数，所述物理参数包括但不限于高度、大小及厚度；

10、导入待抓取物体的urdf模型，并将其放置于桌面上，等待抓取指令；

11、导入配置完成的xacro模型，使机械臂、桌面和待抓取物体处于同一rvi z仿真场景中；

12、s3、构建任务导向性的大语言模型智能体

13、根据任务系统执行流程，设计基于任务实现的序列化对话格式和指令列表，构建任务导向性的大语言模型智能体，所述大语言模型智能体用于在对话中准确理解和响应自然语言指令，管理会话上下文记忆，生成系统动作；

14、s4、开发系统中间层

15、设计用于机械臂控制系统与大语言模型agent之间沟通的系统中间层，所述系统中间层还用于管理自然语言指令的解析和调度，并将所述自然语言指令转换为机械臂的控制信号；

16、s5、搭建系统用户界面

17、所述系统用户界面用于与大语言模型智能体和机械臂控制系统的交互，支持远程访问和操作功能；

18、s6、构建控制器

19、导入并调用move it内置的路径规划算法与控制器，基于配置文件中的参数规划机械臂的运动路径；

20、s7、构建能够实现移动或抓取等任务的工具模块

21、构建能够实现移动或抓取等任务的python程序文件，所述python程序文件用于完成一个或一组机械臂动作任务，即解析机械臂的控制信号，发布机械臂运动指令，调用路径规划器及控制器执行移动或抓取等操作。

22、根据上述技术方案，s3中所述大语言模型智能体的构建方法包括：手动构建适用于进行机械臂控制指导的大语言模型会话样本json l数据集，使用数据集对大语言模型原始神经网络进行微调。

23、根据上述技术方案，s3中所述大语言模型智能体的构建方法包括：构建基于大语言模型的agent，配置与任务执行相关的工具集合，构建会话上下文记忆链条，编写调度程序管理复杂会话线程并合理使用工具模块。

24、根据上述技术方案，s3中所述大语言模型智能体的构建方法包括：使用gpt-4o模型，编写会话管理程序和设计对话的系统角色。

25、根据上述技术方案，s4中还包括在建立通信过程中设计适应不同操作系统和运行环境的双侧接口，并在虚拟机内部与网络层构建内网穿透。

26、根据上述技术方案，s4中所述系统中间层具备异常处理与日志记录功能；

27、根据上述技术方案，s6中还包括在配置文件中限制机械臂各轴转动角度和速度。

28、根据上述技术方案，所述系统用户界面在完成用户要求的任务后提示用户任务完成，并请求用户确认。

29、与现有技术相比，本发明所达到的有益效果是：本发明提供了基于跨模态大语言模型的机械臂智能交互与控制系统的构建方法，通过该方法构建的控制系统通过整合先进的大型语言模型(llm)，如chatgpt，实现了对机械臂的直接控制和精确操作；具有高度的灵活性和适应性，能够在多变的环境和不同的任务要求下有效工作。通过与用户的自然语言交互，系统不仅增强了操作的便捷性，还提升了用户体验，实现了机械臂控制系统在自然语言理解和复杂任务执行方面的提高，为未来机械臂在更广泛应用领域的发展奠定了基础。

技术特征：

1.基于跨模态大语言模型的机械臂智能交互与控制系统的构建方法，其特征在于，所述系统的构建方法包括如下步骤：

2.根据权利要求1所述的基于跨模态大语言模型的机械臂智能交互与控制系统的构建方法，其特征在于：s3中所述大语言模型智能体的构建方法包括：手动构建适用于进行机械臂控制指导的会话样本jsonl数据集，使用数据集对大语言模型原始神经网络进行微调。

3.根据权利要求1所述的基于跨模态大语言模型的机械臂智能交互与控制系统的构建方法，其特征在于：s3中所述大语言模型智能体的构建方法包括：构建基于大语言模型的agent，配置与任务执行相关的工具集合，构建会话上下文记忆链条，编写调度程序管理复杂会话线程并合理使用工具模块。

4.根据权利要求1所述的基于跨模态大语言模型的机械臂智能交互与控制系统的构建方法，其特征在于：s3中所述大语言模型智能体的构建方法包括：使用gpt-4o模型，编写会话管理程序和设计对话的系统角色。

5.根据权利要求1所述的基于跨模态大语言模型的机械臂智能交互与控制系统的构建方法，其特征在于：s4中还包括在建立通信过程中设计适应不同操作系统和运行环境的双侧接口，并在虚拟机内部与网络层构建内网穿透。

6.根据权利要求1所述的基于跨模态大语言模型的机械臂智能交互与控制系统的构建方法，其特征在于：s4中所述系统中间层具备异常处理与日志记录功能。

7.根据权利要求1所述的基于跨模态大语言模型的机械臂智能交互与控制系统的构建方法，其特征在于：s6中还包括在配置文件中限制机械臂各轴转动角度和速度。

8.根据权利要求1所述的基于跨模态大语言模型的机械臂智能交互与控制系统的构建方法，其特征在于：所述系统用户界面在完成用户要求的任务后提示用户任务完成，并请求用户确认。

技术总结
本发明公开了基于跨模态大语言模型的机械臂智能交互与控制系统的构建方法，所述系统的构建方法包括如下步骤：校准仿真模型、配置仿真环境、构建任务导向性的大语言模型智能体、开发系统中间层、搭建系统用户界面、构建控制器、构建能够实现移动或抓取等任务的工具模块；通过该方法构建的系统与用户的自然语言交互，不仅增强了操作的便捷性，还提升了用户体验，实现了机械臂控制系统在自然语言理解和复杂任务执行方面的提高，为未来机械臂在更广泛应用领域的发展奠定了基础。

技术研发人员：李稚凌,王春林
受保护的技术使用者：李稚凌
技术研发日：
技术公布日：2024/11/26

转载请注明原文地址:https://tc.8miu.com/read-32645.html

专利

最新回复(0)