基于键值缓存信息的模型处理方法、任务处理方法及装置与流程

    专利查询2025-12-29  12


    本公开涉及计算机,特别涉及一种基于键值缓存信息的模型处理方法、任务处理方法、基于键值缓存信息的模型处理装置、任务处理装置、众核系统、电子设备及计算机可读存储介质。


    背景技术:

    1、深度学习中的注意力机制(attention mechanism)是一种模仿人类视觉和认知系统的方法,它允许神经网络在处理输入数据时集中注意力于相关的部分。通过引入注意力机制,神经网络能够自动地学习并选择性地关注输入中的重要信息,提高模型的性能和泛化能力。

    2、对于大模型(large model,lm),特别是预训练转换器-3(generative pre-trained transformer-3,gpt-3)、生成式语言模型(general language model,glm)等大语言模型(large language model,llm)而言,随着其处理数据量的增加(如文本长度的增加、文本量的增加等),在进行注意力机制处理过程中用于存储键值缓存信息等所需的存储空间也相应增加,这对大模型的部署与应用带来了较大的困难。


    技术实现思路

    1、本公开提供一种基于键值缓存信息的模型处理方法、任务处理方法、基于键值缓存信息的模型处理装置、任务处理装置、众核系统、电子设备及计算机可读存储介质。

    2、第一方面,本公开提供了一种基于键值缓存信息的模型处理方法,应用于预设模型,所述预设模型包括至少一个目标网络模块,所述目标网络模块包括注意力层和前向连接层,该模型处理方法包括:针对至少部分目标网络模块中的任一目标网络模块,获取所述目标网络模块的注意力层对应的至少部分键值缓存信息;基于所述至少部分键值缓存信息对所述目标网络模块的前向连接层的网络参数进行调整,得到所述目标网络模块的调整后的前向连接层,以将所述至少部分键值缓存信息所承载的第一记忆信息转换为第二记忆信息,并将所述第二记忆信息存储到所述调整后的前向连接层中,所述第一记忆信息的记忆时长小于所述第二记忆信息的记忆时长;删除所述至少部分键值缓存信息。

    3、第二方面,本公开提供了一种任务处理方法,所述预设模型包括至少一个目标网络模块,所述目标网络模块包括注意力层和前向连接层,该任务处理方法包括:将待处理任务数据输入所述预设模型,得到任务处理结果,所述预设模型是基于本公开实施例中任一项所述的基于键值缓存信息的模型处理方法得到的;其中,所述目标网络模块的注意力层用于对输入隐藏状态向量进行第一数据处理,得到第一处理结果,所述目标网络模块的前向连接层用于对所述输入隐藏状态向量进行第二数据处理,得到第二处理结果,并融合所述第一处理结果和所述第二处理结果得到所述目标网络模块的输出隐藏状态向量,并将其作为下一个目标网络模块的输入隐藏状态向量,第一个目标网络模块的输入隐藏状态向量是根据所述待处理任务数据确定的,所述任务处理结果是根据多个所述目标网络模块的输出隐藏状态向量确定的。

    4、第三方面,本公开提供了一种基于键值缓存信息的模型处理装置,应用于预设模型,所述预设模型包括至少一个目标网络模块,所述目标网络模块包括注意力层和前向连接层,该模型处理装置包括:获取模块,用于针对至少部分目标网络模块中的任一目标网络模块,获取所述目标网络模块的注意力层对应的至少部分键值缓存信息;调整模块,用于基于所述至少部分键值缓存信息,对所述目标网络模块的前向连接层的网络参数进行调整,得到所述目标网络模块的调整后的前向连接层,以将所述至少部分键值缓存信息所承载的第一记忆信息转换为第二记忆信息,并将所述第二记忆信息存储到所述调整后的前向连接层中,所述第一记忆信息的记忆时长小于所述第二记忆信息的记忆时长;删除模块,用于删除所述至少部分键值缓存信息。

    5、第四方面,本公开提供了一种任务处理装置,所述预设模型包括至少一个目标网络模块,所述目标网络模块包括注意力层和前向连接层,该任务处理装置包括:处理模块,用于将待处理任务数据输入所述预设模型,得到任务处理结果,所述预设模型是基于本公开实施例任一项所述的基于键值缓存信息的模型处理方法得到的;其中,所述目标网络模块的注意力层用于对输入隐藏状态向量进行第一数据处理,得到第一处理结果,所述目标网络模块的前向连接层用于对所述输入隐藏状态向量进行第二数据处理,得到第二处理结果,并融合所述第一处理结果和所述第二处理结果得到所述目标网络模块的输出隐藏状态向量,并将其作为下一个目标网络模块的输入隐藏状态向量,第一个目标网络模块的输入隐藏状态向量是根据所述待处理任务数据确定的,所述任务处理结果是根据多个所述目标网络模块的输出隐藏状态向量确定的。

    6、第五方面,本公开提供了一种众核系统,所述众核系统包括多个处理单元,每个所述处理单元对应一个处理核或一个核组,预设模型的一个目标网络模块映射到所述众核系统的一个处理单元上;所述众核系统用于执行本公开实施例任一项所述的基于键值缓存信息的模型处理方法,或者,本公开实施例任一项所述的任务处理方法。

    7、第六方面,本公开提供了一种电子设备,该电子设备包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的一个或多个计算机程序,一个或多个所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开实施例任一项所述的基于键值缓存信息的模型处理方法,或者,本公开实施例任一项所述的任务处理方法。

    8、第七方面,本公开提供了一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序在被处理器/处理核执行时实现本公开实施例任一项所述的基于键值缓存信息的模型处理方法,或者,本公开实施例任一项所述的任务处理方法。

    9、本公开所提供的实施例,针对预设模型的至少部分目标模块中的任一目标网络模块,获取目标网络模块的注意力层对应的至少部分键值缓存信息;基于至少部分键值缓存信息对目标网络模块的前向连接层的网络参数进行调整,得到目标网络模块的调整后的前向连接层;删除至少部分键值缓存信息。由此可知,可以利用承载短期记忆信息的键值缓存信息调整前向连接层的网络参数,从而将短期记忆信息转换为长期记忆信息,并将该长期记忆信息存储到调整后的前向连接层中,有效保留了模型信息,并可删除掉相应的键值缓存信息,减少了模型所需的缓存信息量,缓解了承载模型的硬件设备的存储压力和带宽压力。

    10、应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。



    技术特征:

    1.一种基于键值缓存信息的模型处理方法,其特征在于,应用于预设模型,所述预设模型包括至少一个目标网络模块,所述目标网络模块包括注意力层和前向连接层,所述方法包括:

    2.根据权利要求1所述的方法,其特征在于,所述基于所述至少部分键值缓存信息对所述目标网络模块的前向连接层的网络参数进行调整,得到所述目标网络模块的调整后的前向连接层,包括:

    3.根据权利要求2所述的方法,其特征在于,所述目标函数还包括约束条件子函数;

    4.根据权利要求2或3所述的方法,其特征在于,所述目标函数通过以下公式表征:

    5.根据权利要求1所述的方法,其特征在于,所述获取所述目标网络模块的注意力层对应的至少部分键值缓存信息,包括:

    6.根据权利要求5所述的方法,其特征在于,所述注意力层对应的全部键值缓存信息组成键值缓存序列;

    7.根据权利要求5所述的方法,其特征在于,所述从所述注意力层对应的全部键值缓存信息中选取一部分作为所述至少部分键值缓存信息,包括:

    8.根据权利要求7所述的方法,其特征在于,所述筛选条件是根据所述至少部分键值缓存信息中的各个键值缓存信息的信息熵确定的。

    9.根据权利要求1所述的方法,其特征在于,所述目标网络模块的注意力层与前向连接层并行连接或者串行连接;

    10.根据权利要求1-3和5-9中任一项所述的方法,其特征在于,多个所述目标网络模块的模型处理采用并行方式执行。

    11.根据权利要求1-3和5-9中任一项所述的方法,其特征在于,所述预设模型的一个目标网络模块映射到众核系统的一个处理单元上,每个所述处理单元对应一个处理核或一个核组;

    12.一种任务处理方法,其特征在于,应用于预设模型,所述预设模型包括至少一个目标网络模块,所述目标网络模块包括注意力层和前向连接层,所述方法包括:

    13.一种基于键值缓存信息的模型处理装置,其特征在于,应用于预设模型,所述预设模型包括至少一个目标网络模块,所述目标网络模块包括注意力层和前向连接层,所述装置包括:

    14.一种任务处理装置,其特征在于,应用于预设模型,所述预设模型包括至少一个目标网络模块,所述目标网络模块包括注意力层和前向连接层,所述装置包括:

    15.一种众核系统,其特征在于,所述众核系统包括多个处理单元,每个所述处理单元对应一个处理核或一个核组,预设模型的一个目标网络模块映射到所述众核系统的一个处理单元上;

    16.一种电子设备,其特征在于,包括:

    17.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序在被处理器执行时实现如权利要求1-11中任一项所述的基于键值缓存信息的模型处理方法,或者,如权利要求12所述的任务处理方法。


    技术总结
    本公开提供了一种基于键值缓存信息的模型处理方法、任务处理方法及装置,属于计算机技术领域。该模型处理方法包括:针对至少部分目标网络模块中的任一目标网络模块,获取目标网络模块的注意力层对应的至少部分键值缓存信息;基于至少部分键值缓存信息对目标网络模块的前向连接层的网络参数进行调整,得到目标网络模块的调整后的前向连接层,以将至少部分键值缓存信息所承载的第一记忆信息转换为第二记忆信息,并将第二记忆信息存储到调整后的前向连接层中,第一记忆信息的记忆时长小于第二记忆信息的记忆时长;删除至少部分键值缓存信息。根据本公开的实施例能够减少模型所需的缓存信息量,缓解承载模型的硬件设备的存储压力和带宽压力。

    技术研发人员:刘发强,祝夭龙
    受保护的技术使用者:北京灵汐科技有限公司
    技术研发日:
    技术公布日:2024/11/26
    转载请注明原文地址:https://tc.8miu.com/read-33237.html

    最新回复(0)