基于大型语言模型的具身智能体的动作空间对齐方法、系统与流程

    专利查询2025-04-04  23

    本发明涉及基于大型语言模型的具身智能体的动作空间对齐方法,属于推理和规划。
    背景技术
    ::1、近年来,gpt-4、claude-3、gemini和llama等代表性大型语言模型(llms)在广泛的自然语言处理和生成任务中展现出卓越性能。它们不仅在自然语言处理方面表现出色,还在推理和规划等领域迅速发展,为具身智能技术带来了新的活力。近期的许多研究探索了基于llms的具身智能体在意图理解、逻辑推理和任务规划等方面的能力,展示了大型语言模型在具身智能体中作为核心规划器的潜力。2、然而,将具身智能体的能力和行为与安全有效的动作空间进行对齐,仍是一个重大得挑战。研究表明,这些基于模型的智能体可能会无意中学习到训练数据中的偏见、歧视性或有害内容,导致输出偏离人类期望。特别是,这些具身智能体可能会产生误导性的“幻觉”行为,制造错误或无根据的内容。具体来说,智能体的动作“幻觉”主要包括格式幻觉,即一个不正确的控制动作;和状态幻觉,即基于错误的状态判断而导致不可执行的动作。例如图1所示,一个未经过对齐的智能体可能会生成一个格式错误的动作指令“gotocoffeetable 1”,而正确的指令格式应在“go”和“to”之间包含空格。这种格式上的错误导致智能体无法成功到达“coffeetable 1”,并进一步触发状态幻觉,产生了不可执行的动作指令“put vase 3in/on coffeetable 1”。因为实际上智能体并不处于“coffeetable 1”的位置,所以无法完成该动作。因此,采用有效的对齐技术,确保基于大型语言模型的智能体行为与可行且安全的操作空间一致,显得尤为重要。3、目前广泛采用的模型对齐方法主要基于以下的对齐范式:首先是监督微调(sft),随后是强化学习(rl)。此方法先在特定领域的训练数据上对模型进行微调,旨在通过增强模型遵循指令的能力来提升其实用性,并在一定程度上缓解幻觉。尽管如此,当面对不熟悉的输入时,仅依靠监督微调的模型还是可能给出错误的答案。4、在具身环境中,使用基于强化学习(rl)来实现基于大型语言模型的具身智能体的动作空间对齐,面临着几个主要挑战:5、(1)需要定制化奖励函数:rl通常需要为不同环境定制奖励函数,这可能需要收集额外的数据集或进行复杂的手动注释。这一步骤不仅增加了准备工作的负担,还可能引入人为偏差。6、(2)计算资源消耗大:rl训练通常需要大量的计算资源。由于一般奖励模型的规模可能与语言模型本身相当,这使得强化学习训练在资源消耗上特别昂贵,且训练过程往往缺乏稳定性,这进一步加大了训练难度和成本。7、(3)存在稀疏奖励问题:在具身环境中,智能体可能遇到稀疏奖励的问题,即正确的动作或行为序列很难通过直接的反馈得到奖励。这种情况不利于rl训练,因为它会导致学习效率低下,智能体难以在复杂环境中找到有效的学习路径;8、为了更有效地确保模型输出与人类偏好一致,许多研究在监督微调之后加入了基于人类反馈的强化学习阶段。例如,instructgpt、raft和constitutional ai等通过利用人类反馈来进行强化学习,培养模型学习和理解人类偏好。这种方法通过训练一个奖励模型,根据对模型输出的人类评估来引导学习过程,以此来提高模型的表现和输出质量。技术实现思路1、为了解决上述问题,本发明提供了基于大型语言模型的具身智能体的动作空间对齐方法、系统,使用内部对齐与外部对齐协同,不仅保证了智能体生成动作的有效性,而且增强了模型的整体性能,内外对齐方法为缓解基于llm的具身智能体的动作幻觉问题。2、本发明的技术方案是:第一方面,本发明提供基于大型语言模型的具身智能体的动作空间对齐方法,包括内部对齐与外部对齐;3、所述内部对齐中,通过参数高效微调方法用于促进智能体的高效模型自适应;4、所述外部对齐中,通过基于检索生成的方法来确保智能体输出的动作是与安全有效的动作集是相对齐的。5、进一步地,所述内部对齐中,通过参数高效微调方法用于促进智能体的高效模型自适应具体包括:6、利用了q-lora参数高效微调方法peft,以促进智能体的高效模型自适应;7、内部对齐的目标是在具身数据集上训练一个基于llm的具身智能体πθ,它学习专家演示在解决具身推理任务xtask的能力;专家演示轨迹片段以动作-环境状态对的形式呈现,其中每一对数据表示在执行动作at后对应得环境状态st;假设令τt=[(a0,s0),(a1,s1),(a2,s2),...,(at-1,st-1)]表示为时间t时刻的轨迹片段;有监督微调的目标是学习生成一个动作序列{at~πθ(xtask,τt)}来高效地完成任务;总之,这是为了寻求找到一组参数θ*,使得在具身智能体πθ指导下的损失函数最小化;8、9、选择交叉熵损失作为损失函数它衡量πθ和专家演示产生的行动之间的差异,表示在具身智能体πθ策略下的期望值或期望损失,θ表示参数空间,包含所有可能的参数集合θ。10、进一步地,所述外部对齐中,通过基于检索生成的方法来确保智能体输出的动作是与安全有效的动作集是相对齐的具体包括:11、基于检索生成的方法中,检索-增强生成的目标是从一组安全有效的动作中选择最优动作作为模型的最终输出;当经过内部对齐的智能体πθ生成一个候选动作ac时,外部动作空间对齐的第一步是计算候选动作ac与有效动作空间v中每个有效动作v之间的rouge-l分数,其中rouge-l分数用于评价两句话之间的相似度,反映ac与所有有效动作v之间的相似度;rouge-l分数的计算公式如下:12、13、这里,lcs(ac,v)表示候选动作ac和有效动作v之间的最长共同子序列的长度,len(ac)是候选动作ac的长度;通过计算ac和有效动作v之间的rouge-l分数,选择得分最高的动作作为模型的最终输出;如果多个有效动作与ac具有最高且相等的相似度值时,则形成获选动作集c。14、进一步地,在获取到获选动作集c后,引入策略模型πp来选择最佳动作;利用大型语言模型的in-context learning,即icl能力进行动作空间对齐;icl的引入旨在通过修改模型的输入查询来增强模型在新任务上的性能,而不是直接更新模型权重;将当前检索到的有效动作集c作为外部输入,允许llm获取执行上下文之外的物理世界的信息,从而锚定llm对检索到的动作的响应,降低幻觉现象的可能性;最终的动作表示为:15、af=πp(xtask,τt,c)16、其中,xtask表示具身推理任务,τt表示为时间t时刻的轨迹片段。17、第二方面,本发明提供基于大型语言模型的具身智能体的动作空间对齐系统,包括用于执行上述第一方面所述的方法的模块。18、第三方面,本发明提供一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行第一方面中任意一项所述的基于大型语言模型的具身智能体的动作空间对齐方法。19、第四方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行第一方面所述的基于大型语言模型的具身智能体的动作空间对齐方法。20、本发明的有益效果是:21、1、本发明新提出的内外部对齐策略相比于传统基于强化学习(rl)的对齐方法,展现了更高的灵活性和资源效率,并且在提高模型可解释性方面做出了贡献。核心优势具体来讲有:22、第一,消除了设计奖励函数和针对具体具体化任务进行强化学习(rl)训练的需要。23、第二,该框架内的策略模型的选择是灵活的,既可以是经过微调的开源小模型(模型参数7b左右),也可以是功能强大的商业大语言模型。24、第三,基于有效动作空间检索能通过从物理环境(如安全有效的动作集)中检索证据来生成动作,自然降低了产生幻觉内容的风险。最后,基于检索生成的策略可以确定llm生成答案的来源,增强模型决策过程的可解释性和透明度。25、2、本发明不仅保证了智能体生成动作的有效性,而且增强了模型的整体性能,证明了其有效性;此外,本发明的方法需要更低的计算资源:在内部对齐期间,利用了一种高效的参数微调方法;而在外部对齐中,与传统的基于强化学习的模型对齐技术相比,基于检索生成的外部对齐显示出更高的效率和稳定性;此外,它还提高了模型输出的可控性和可解释性;内外对齐方法为缓解基于llm的具身体的动作幻觉提供了有效的解决方案。当前第1页12当前第1页12
    技术特征:

    1.基于大型语言模型的具身智能体的动作空间对齐方法,其特征在于:包括内部对齐与外部对齐;

    2.根据权利要求1所述的基于大型语言模型的具身智能体的动作空间对齐方法,其特征在于:所述内部对齐中,通过参数高效微调方法用于促进智能体的高效模型自适应具体包括:

    3.根据权利要求1所述的基于大型语言模型的具身智能体的动作空间对齐方法,其特征在于:所述外部对齐中,通过基于检索生成的方法来确保智能体输出的动作是与安全有效的动作集是相对齐的具体包括:

    4.根据权利要求1或3任一项所述的基于大型语言模型的具身智能体的动作空间对齐方法,其特征在于:在获取到获选动作集c后,引入策略模型πp来选择最佳动作;利用大型语言模型的in-context learning,即icl能力进行动作空间对齐;icl的引入旨在通过修改模型的输入查询来增强模型在新任务上的性能,而不是直接更新模型权重;将当前检索到的有效动作集c作为外部输入,允许llm获取执行上下文之外的物理世界的信息,从而锚定llm对检索到的动作的响应,降低幻觉现象的可能性;最终的动作表示为:

    5.基于大型语言模型的具身智能体的动作空间对齐系统,其特征在于,包括用于执行如权利要求1-4任一权利要求所述的方法的模块。

    6.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1-4中任意一项所述的基于大型语言模型的具身智能体的动作空间对齐方法。

    7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行权利要求1-4中任意一项所述的基于大型语言模型的具身智能体的动作空间对齐方法。


    技术总结
    本发明涉及基于大型语言模型的具身智能体的动作空间对齐方法、系统,属于推理和规划技术领域。本发明包括内部对齐与外部对齐;所述内部对齐中,通过参数高效微调方法用于促进智能体的高效模型自适应;所述外部对齐中,通过基于检索生成的方法来确保智能体输出的动作是与安全有效的动作集是相对齐的。本发明不仅保证了智能体生成动作的有效性,而且增强了模型的整体性能,证明了其有效性;此外,本发明的方法需要更低的计算资源;还提高了模型输出的可控性和可解释性;内外对齐方法为缓解基于llm的具身体的动作幻觉提供了有效的解决方案。

    技术研发人员:李堪学,齐冲冲,詹忆冰,林旭,杨辉,李仙荣
    受保护的技术使用者:云南联合视觉科技有限公司
    技术研发日:
    技术公布日:2024/11/26
    转载请注明原文地址:https://tc.8miu.com/read-27176.html

    最新回复(0)