模型训练方法、模型推理方法和装置与流程

专利查询2025-06-01 137

本申请涉及人工智能，尤其涉及一种模型训练方法、模型推理方法和装置。

背景技术：

1、随着人工智能技术的飞速发展，越来越多的大语言模型（large languagemodels, llms）被开发出来。在大语言模型的使用过程中，长文本的处理需求逐渐显得越来越重要。一般地，文本越长，对显存的要求也就越高，推理精度也越低。

2、因此，如何在有限显存的限制下尽可能地保证长文本的推理精度成为业界亟待解决的技术问题。

技术实现思路

1、本申请提供一种模型训练方法、模型推理方法和装置，用于解决如何在有限显存的限制下尽可能地保证长文本的推理精度的技术问题。

2、本申请提供一种模型训练方法，包括：

3、基于当前步长对当前长度的输入文本对应的键值缓存进行分块；

4、基于当前权重阈值以及所述键值缓存的各个分块对模型推理结果的影响权重，对各个分块进行筛选；

5、对所述当前步长和所述当前权重阈值进行调整，确定步长设定值和权重阈值设定值；

6、其中，所述步长设定值和所述权重阈值设定值用于在模型推理阶段对所述当前长度的输入文本对应的键值缓存进行分块和筛选。

7、在一些实施例中，所述基于当前权重阈值以及所述键值缓存的各个分块对模型推理结果的影响权重，对各个分块进行筛选，包括：

8、在任一分块对模型推理结果的影响权重大于或者等于所述当前权重阈值的情况下，在所述键值缓存中保留所述任一分块；

9、在任一分块对模型推理结果的影响权重小于所述当前权重阈值的情况下，在所述键值缓存中舍弃所述任一分块。

10、在一些实施例中，所述对所述当前步长和所述当前权重阈值进行调整，确定步长设定值和权重阈值设定值，包括：

11、基于模型资源要求和模型精度要求，对所述当前步长和所述当前权重阈值进行调整，确定所述步长设定值和所述权重阈值设定值。

12、在一些实施例中，所述基于模型资源要求和模型精度要求，对所述当前步长和所述当前权重阈值进行调整，确定所述步长设定值和所述权重阈值设定值，包括：

13、基于所述模型资源要求，确定第一训练损失函数；

14、基于所述模型精度要求，确定第二训练损失函数；

15、基于所述第一训练损失函数和所述第二训练损失函数，确定模型训练损失函数；

16、基于所述模型训练损失函数，在模型训练过程中对所述当前步长和所述当前权重阈值进行调整，确定所述步长设定值和所述权重阈值设定值。

17、在一些实施例中，所述基于所述模型资源要求，确定第一训练损失函数，包括：

18、确定所述模型资源要求为模型训练的显存占用量小于显存总量；

19、在基于所述当前步长对所述键值缓存进行分块和基于所述当前权重阈值对各个分块进行筛选的情况下，确定筛选后的各个分块的显存占用量；

20、基于筛选后的各个分块的显存占用量，以及所述显存总量，确定所述第一训练损失函数。

21、在一些实施例中，所述显存总量是基于模型训练的显卡的显存容量确定的。

22、在一些实施例中，所述基于当前步长对当前长度的输入文本对应的键值缓存进行分块之前，所述方法还包括：

23、基于所述当前长度确定所述当前步长；

24、其中，所述当前步长与所述当前长度成正比例关系。

25、本申请提供一种模型推理方法，包括：

26、获取输入文本；

27、基于所述输入文本对应的步长设定值和权重阈值设定值，对所述输入文本对应的键值缓存进行分块和筛选；

28、基于筛选后的键值缓存进行模型推理；

29、其中，所述步长设定值和所述权重阈值设定值是基于上述模型训练方法确定的。

30、本申请提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述的模型训练方法或者模型推理方法。

31、本申请提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述的模型训练方法或者模型推理方法。

32、本申请实施例提供的模型训练方法、模型推理方法和装置，基于当前步长对当前长度的输入文本对应的键值缓存进行分块；基于当前权重阈值以及键值缓存的各个分块对模型推理结果的影响权重，对各个分块进行筛选；对当前步长和当前权重阈值进行调整，确定步长设定值和权重阈值设定值；由于步长设定值和权重阈值设定值均是通过模型训练得到的，通过步长设定值可以确定模型提取特征的细粒度，通过权重阈值可以在键值缓存中筛选对模型推理结果的影响较大的分块，使得大语言模型在进行推理时可以减少显存占用量同时保证模型推理的精度，提高了大语言模型对长文本的处理能力。

技术特征：

1.一种模型训练方法，其特征在于，包括：

2.根据权利要求1所述的模型训练方法，其特征在于，所述基于当前权重阈值以及所述键值缓存的各个分块对模型推理结果的影响权重，对各个分块进行筛选，包括：

3.根据权利要求1所述的模型训练方法，其特征在于，所述对所述当前步长和所述当前权重阈值进行调整，确定步长设定值和权重阈值设定值，包括：

4.根据权利要求3所述的模型训练方法，其特征在于，所述基于模型资源要求和模型精度要求，对所述当前步长和所述当前权重阈值进行调整，确定所述步长设定值和所述权重阈值设定值，包括：

5.根据权利要求4所述的模型训练方法，其特征在于，所述基于所述模型资源要求，确定第一训练损失函数，包括：

6.根据权利要求5所述的模型训练方法，其特征在于，所述显存总量是基于模型训练的显卡的显存容量确定的。

7.根据权利要求1至6任一项所述的模型训练方法，其特征在于，所述基于当前步长对当前长度的输入文本对应的键值缓存进行分块之前，所述方法还包括：

8.一种模型推理方法，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至8任一项所述的模型训练方法或者模型推理方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的模型训练方法或者模型推理方法。

技术总结
本申请提供一种模型训练方法、模型推理方法和装置，涉及人工智能技术领域，包括：基于当前步长对当前长度的输入文本对应的键值缓存进行分块；基于当前权重阈值以及所述键值缓存的各个分块对模型推理结果的影响权重，对各个分块进行筛选；对所述当前步长和所述当前权重阈值进行调整，确定步长设定值和权重阈值设定值；所述步长设定值和所述权重阈值设定值用于在模型推理阶段对所述当前长度的输入文本对应的键值缓存进行分块和筛选。本申请提供的方法和装置，使得大语言模型在进行推理时可以减少显存占用量同时保证模型推理的精度，提高了大语言模型对长文本的处理能力。

技术研发人员：请求不公布姓名
受保护的技术使用者：上海壁仞科技股份有限公司
技术研发日：
技术公布日：2024/11/26

转载请注明原文地址:https://tc.8miu.com/read-28969.html

专利

最新回复(0)