一种大模型微调数据配比方法及相关装置与流程

    专利查询2025-12-10  3


    本技术涉及人工智能,尤其涉及一种大模型微调数据配比方法及相关装置。


    背景技术:

    1、大模型微调是指在已经预训练好的大型深度学习模型基础上,使用新的、特定任务相关的数据集对模型进行进一步训练的过程。这种微调技术的主要目的是使模型能够适应新的、具体的任务或领域,而无需从头开始训练一个全新的模型。

    2、目前在对用于大模型微调的数据进行配比时,依赖于人工预先设定的配比策略,需要通过反复试验来寻找最佳的配比。由于人工设定的配比策略依赖于开发者的主观经验,导致很难精准捕捉到最优的配比策略,并且耗时较长效率低。


    技术实现思路

    1、鉴于上述问题,本技术提供了一种大模型微调数据配比方法及相关装置,以实现提高数据配比的准确性和配比效率的目的。具体方案如下:

    2、本技术第一方面提供一种大模型微调数据配比方法,包括:

    3、s1、将每个应用场景相对应的场景模型,使用所述应用场景相对应的验证数据集进行验证测评,得到所述验证数据集的第一测评结果, 每个所述应用场景相对应的场景模型由每个所述应用场景相对应的初始监督微调数据集对通用模型训练得到;

    4、s2、将初始通用场景模型使用每个所述验证数据集进行验证测评,得到每个所述验证数据集的第二测评结果,所述初始通用场景模型由使用初始合并数据集对所述通用模型训练得到,所述初始合并数据集由将每个所述初始监督微调数据集合并得到;

    5、s3、以第一测评结果集与第二测评结果集之间的距离最小为目标,根据梯度下降算法按照预设学习率对每个所述初始监督微调数据集进行更新,得到更新后的初始合并数据集,所述第一测评结果集包括所有第一测评结果,所述第二测评结果集包括所有第二测评结果;

    6、s4、使用所述更新后的初始合并数据集对所述初始通用场景模型进行更新,得到更新后的初始通用场景模型;

    7、s5、将所述更新后的初始通用场景模型使用每个所述验证数据集进行验证测评,得到更新后的第二测评结果集,并将所述更新后的第二测评结果集作为所述第二测评结果集;

    8、s6、重复执行步骤s3至步骤s5,直至所述距离不大于第一预设值或梯度变化不大于第二预设值。

    9、在一种可能的实现中,在将每个应用场景相对应的场景模型,使用所述应用场景相对应的验证数据集进行验证测评,得到所述验证数据集的第一测评结果前,还包括:

    10、对所述通用模型进行缩小操作,得到缩小后的通用模型,并使用所述缩小后的通用模型替代所述通用模型执行步骤s1至步骤s6。

    11、在一种可能的实现中,所述大模型微调数据配比方法还包括:

    12、在步骤s6执行完成后,按照最近一次得到的更新后的初始合并数据集对所述通用模型进行训练,并使用每个所述验证数据集对训练完成的通用模型进行验证测评。

    13、在一种可能的实现中,所述对所述通用模型进行缩小操作,得到缩小后的通用模型,包括:

    14、将和所述通用模型具有同一基座模型,且参数规模小于所述通用模型的模型作为所述缩小后的通用模型。

    15、在一种可能的实现中,所述以第一测评结果集与第二测评结果集之间的距离最小为目标,根据梯度下降算法按照预设学习率对每个所述初始监督微调数据集进行更新,得到更新后的初始合并数据集,包括:

    16、根据预设距离计算函数确定出损失函数;

    17、根据所述损失函数确定出所述第一测评结果集和所述第二测评结果集之间的梯度向量;

    18、根据所述梯度向量和所述预设学习率,对每个所述初始监督微调数据集进行更新。

    19、在一种可能的实现中,所述预设学习率包括:每次调整的数量或比例。

    20、本技术第二方面提供一种大模型微调数据配比装置,包括:

    21、应用场景测评模块,用于执行s1、将每个应用场景相对应的场景模型,使用所述应用场景相对应的验证数据集进行验证测评,得到所述验证数据集的第一测评结果, 每个所述应用场景相对应的场景模型由每个所述应用场景相对应的初始监督微调数据集对通用模型训练得到;

    22、通用场景测评模块,用于执行s2、将初始通用场景模型使用每个所述验证数据集进行验证测评,得到每个所述验证数据集的第二测评结果,所述初始通用场景模型由使用初始合并数据集对所述通用模型训练得到,所述初始合并数据集由将每个所述初始监督微调数据集合并得到;

    23、数据集调整模块,用于执行s3、以第一测评结果集与第二测评结果集之间的距离最小为目标,根据梯度下降算法按照预设学习率对每个所述初始监督微调数据集进行更新,得到更新后的初始合并数据集,所述第一测评结果集包括所有第一测评结果,所述第二测评结果集包括所有第二测评结果;

    24、通用场景更新模块,用于执行s4、使用所述更新后的初始合并数据集对所述初始通用场景模型进行更新,得到更新后的初始通用场景模型;

    25、通用场景测评更新模块,用于执行s5、将所述更新后的初始通用场景模型使用每个所述验证数据集进行验证测评,得到更新后的第二测评结果集,并将所述更新后的第二测评结果集作为所述第二测评结果集;以及,

    26、通用场景循环测评模块,用于使所述数据集调整模块重复执行步骤s3、所述通用场景更新模块重复执行步骤s4以及通用场景测评更新模块重复执行步骤s5,直至所述距离不大于第一预设值或梯度变化不大于第二预设值。

    27、本技术第三方面提供一种计算机程序产品,包括计算机可读指令,当所述计算机可读指令在电子设备上运行时,使得所述电子设备实现上述第一方面或第一方面任一实现方式的大模型微调数据配比方法。

    28、本技术第四方面提供一种电子设备,包括至少一个处理器和与所述处理器连接的存储器,其中:

    29、所述存储器用于存储计算机程序;

    30、所述处理器用于执行所述计算机程序,以使所述电子设备能够实现上述第一方面或第一方面任一实现方式的大模型微调数据配比方法。

    31、本技术第五方面提供一种计算机存储介质,所述存储介质承载有一个或多个计算机程序,当所述一个或多个计算机程序被电子设备执行时,能够使所述电子设备实现上述第一方面或第一方面任一实现方式的大模型微调数据配比方法。

    32、借由上述技术方案,本技术提供的大模型微调数据配比方法,通过使用每个场景的验证数据集对针对每个场景专门训练得到的场景模型进行验证,得到的第一测评结果集作为每个场景的最优测评效果。同时将初始通用场景模型使用每个所述验证数据集进行验证测评,得到每个所述验证数据集的第二测评结果。以第一测评结果集与第二测评结果集之间的距离最小为目标,根据梯度下降算法按照预设学习率对每个所述初始监督微调数据集进行更新。使用更新后的合并数据集进行通用场景模型的更新,再使用每个验证数据集对更新的通用场景模型进行验证更新,得到更新后的第二测评结果。根据梯度计算的配比更新并不断重复上述过程,直至距离不大于第一预设值或梯度变化不大于第二预设值,得到最佳的数据集配比。相比于现有技术本方案基于梯度算法实现了大模型微调数据配比的自动优化,在提高数据配比优化的效率的同时,提高最佳配比的准确性。


    技术特征:

    1.一种大模型微调数据配比方法,其特征在于,包括:

    2.根据权利要求1所述的大模型微调数据配比方法,其特征在于,在将每个应用场景相对应的场景模型,使用所述应用场景相对应的验证数据集进行验证测评,得到所述验证数据集的第一测评结果前,还包括:

    3.根据权利要求2所述的大模型微调数据配比方法,其特征在于,还包括:

    4.根据权利要求2所述的大模型微调数据配比方法,其特征在于,所述对所述通用模型进行缩小操作,得到缩小后的通用模型,包括:

    5.根据权利要求1所述的大模型微调数据配比方法,其特征在于,所述以第一测评结果集与第二测评结果集之间的距离最小为目标,根据梯度下降算法按照预设学习率对每个所述初始监督微调数据集进行更新,得到更新后的初始合并数据集,包括:

    6.根据权利要求1至5任一项所述的大模型微调数据配比方法,其特征在于,所述预设学习率包括:每次调整的数量或比例。

    7.一种大模型微调数据配比装置,其特征在于,包括:

    8.一种计算机程序产品,其特征在于,包括计算机可读指令,当所述计算机可读指令在电子设备上运行时,使得所述电子设备实现如权利要求1至6中任意一项所述的大模型微调数据配比方法。

    9.一种电子设备,其特征在于,包括至少一个处理器和与所述处理器连接的存储器,其中:

    10.一种计算机存储介质,其特征在于,所述存储介质承载有一个或多个计算机程序,当所述一个或多个计算机程序被电子设备执行时,能够使所述电子设备实现如权利要求1至6中任意一项所述的大模型微调数据配比方法。


    技术总结
    本申请公开一种大模型微调数据配比方法及相关装置,涉及人工智能领域,通过使用每个场景的验证数据集对针对每个场景专门训练得到的场景模型进行验证,得到的第一测评结果集作为每个场景的最优测评效果。同时将初始通用场景模型使用每个所述验证数据集进行验证测评,得到每个所述验证数据集的第二测评结果。以第一测评结果集与第二测评结果集之间的距离最小为目标,根据梯度下降算法按照预设学习率对每个所述初始监督微调数据集进行更新。使用更新后的合并数据集进行通用场景模型的更新,再使用每个验证数据集对更新的通用场景模型进行验证更新,不断重复上述过程得到最佳的数据集配比。在提高数据配比优化的效率的同时,提高最佳配比的准确性。

    技术研发人员:宋勇,程驿涵,张钰涵,廉霄兴,叶晓舟,欧阳晔
    受保护的技术使用者:杭州亚信软件有限公司
    技术研发日:
    技术公布日:2024/11/26
    转载请注明原文地址:https://tc.8miu.com/read-32600.html

    最新回复(0)