训练语言模型的方法及装置与流程

专利查询2026-03-07 23

本说明书一个或多个实施例涉及机器学习领域，尤其涉及训练语言模型的方法及装置。

背景技术：

1、近些年，在大规模数据集上训练得到的大语言模型(large language model,llm)，在理解人类意图和推理等方面展现出了强大的实力。大语言模型通常在大规模数据集上进行预训练(pre-training)之后，再根据下游的具体任务进行微调(fine-tuning)，其中包括偏好对齐(preference alignment)，确保模型的行为符合人类的偏好。

2、然而，在用于偏好对齐训练时使用的偏好数据对彼此比较接近的情况下，相关技术中的偏好对齐方法可能会让模型崩溃，产生重复的输出文本，或者输出无意义字符的异常情况。因此，需要一种更好的方法，以提高偏好对齐训练过程中的鲁棒性。

技术实现思路

1、本说明书一个或多个实施例描述了训练语言模型的方法及装置，确保在偏好数据对彼此接近的情况下，也能够正确地训练模型，提高偏好对齐训练过程中的鲁棒性。

2、第一方面，提供了一种训练语言模型的方法，包括：

3、将目标输入文本分别输入目标语言模型以及预训练的参考语言模型，得到两个模型各自关于第一输出文本的概率值，以及各自关于第二输出文本的概率值，其中，第一输出文本相对于第二输出文本被标记为关于所述目标输入文本的偏好输出文本；

4、确定训练损失，其与第一损失项负相关，且与第二损失项正相关；其中，第一损失项包括所述两个模型关于第一输出文本的概率值之间的差异；第二损失项包括所述两个模型关于第二输出文本的概率值之间的差异与0之间的较大值；

5、以减小所述训练损失为目标，调整所述目标语言模型中的参数。

6、在一些可能的实施方式中，所述目标语言模型中的参数基于所述预训练的参考语言模型中的参数初始化得到。

7、在一些可能的实施方式中，所述第一输出文本和第二输出文本通过以下方式获取：

8、将目标输入文本输入到参考语言模型中，使其输出两条输出文本；

9、对所述两条输出文本关于所述目标输入文本进行偏好评价，根据偏好评价结果，将其分别确定为第一输出文本和第二输出文本。

10、在一些可能的实施方式中，对所述两条输出文本关于所述目标输入文本进行偏好评价，包括：

11、将所述两条输出文本和所述目标输入文本，输入到偏好评价模型中进行偏好评价；或，

12、将所述两条输出文本和所述目标输入文本，发送到人工打标平台，并接收偏好评价结果。

13、在一些可能的实施方式中，所述目标语言模型在接收目标输入文本时，以第一概率值输出第一输出文本；所述参考语言模型在接收目标输入文本时，以第二概率值输出第一输出文本；所述第一损失项包括，第一概率值与第二概率值的比值的对数值。

14、在一些可能的实施方式中，所述目标语言模型在接收目标输入文本时，以第三概率值输出第二输出文本；所述参考语言模型在接收目标输入文本时，以第四概率值输出第二输出文本；所述第二损失项包括，第三概率值与第四概率值的比值的对数值与0之间的较大值。

15、在一些可能的实施方式中，所述训练损失还包括预设的第一系数；所述训练损失包括，第一损失项与第二损失项的差值与第一系数的乘积。

16、第二方面，提供了一种训练语言模型的装置，包括：

17、概率确定单元，配置为，将目标输入文本分别输入目标语言模型以及预训练的参考语言模型，得到两个模型各自关于第一输出文本的概率值，以及各自关于第二输出文本的概率值，其中，第一输出文本相对于第二输出文本被标记为关于所述目标输入文本的偏好输出文本；

18、损失确定单元，配置为，确定训练损失，其与第一损失项负相关，且与第二损失项正相关；其中，第一损失项包括所述两个模型关于第一输出文本的概率值之间的差异；第二损失项包括所述两个模型关于第二输出文本的概率值之间的差异与0之间的较大值；

19、模型训练单元，配置为，以减小所述训练损失为目标，调整所述目标语言模型中的参数。

20、第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面的方法。

21、第四方面，提供了一种计算设备，包括存储器和处理器，其中，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面的方法。

22、本说明书实施例提出的训练语言模型的方法及装置，方法使用的训练样本包括输入文本，偏好输出文本，非偏好输出文本。方法首先将输入文本输入到目标语言模型和参考语言模型中，得到两个模型各自关于偏好输出文本的概率值，以及对非偏好输出文本的概率值。在确定训练损失时，将两个模型关于偏好输出文本的概率值差异直接计入训练损失，而对于非偏好输出文本，只有在两个模型关于非偏好输出文本的概率值差异大于等于0时，才将其计入训练损失。如此一来，对于相似的偏好输出文本-非偏好输出文本的偏好数据对，在训练模型时不会对非偏好输出文本进行过度的惩罚，以提高模型训练过程中的鲁棒性。

技术特征：

1.一种训练语言模型的方法，包括：

2.根据权利要求1所述的方法，其中，所述目标语言模型中的参数基于所述预训练的参考语言模型中的参数初始化得到。

3.根据权利要求1所述的方法，其中，所述第一输出文本和第二输出文本通过以下方式获取：

4.根据权利要求3所述的方法，对所述两条输出文本关于所述目标输入文本进行偏好评价，包括：

5.根据权利要求1所述的方法，其中，所述目标语言模型在接收目标输入文本时，以第一概率值输出第一输出文本；所述参考语言模型在接收目标输入文本时，以第二概率值输出第一输出文本；所述第一损失项包括，第一概率值与第二概率值的比值的对数值。

6.根据权利要求1所述的方法，其中，所述目标语言模型在接收目标输入文本时，以第三概率值输出第二输出文本；所述参考语言模型在接收目标输入文本时，以第四概率值输出第二输出文本；所述第二损失项包括，第三概率值与第四概率值的比值的对数值与0之间的较大值。

7.根据权利要求1所述的方法，其中，所述训练损失还包括预设的第一系数；所述训练损失包括，第一损失项与第二损失项的差值与第一系数的乘积。

8.一种训练语言模型的装置，包括：

9.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-7中任一项所述的方法。

10.一种计算设备，包括存储器和处理器，其中，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-7中任一项所述的方法。

技术总结
本说明书实施例涉及训练语言模型的方法及装置，方法包括：首先，将目标输入文本分别输入目标语言模型以及预训练的参考语言模型，得到两个模型各自关于第一输出文本的概率值，以及各自关于第二输出文本的概率值，其中，第一输出文本相对于第二输出文本被标记为关于所述目标输入文本的偏好输出文本；然后，确定训练损失，其与第一损失项负相关，且与第二损失项正相关；其中，第一损失项包括所述两个模型关于第一输出文本的概率值之间的差异；第二损失项包括所述两个模型关于第二输出文本的概率值之间的差异与0之间的较大值；接下来，以减小所述训练损失为目标，调整所述目标语言模型中的参数。

技术研发人员：谢世明,陈鸿,于飞,孙泽烨,吴修宇,胡颖凡
受保护的技术使用者：支付宝（杭州）信息技术有限公司
技术研发日：
技术公布日：2024/11/26

转载请注明原文地址:https://tc.8miu.com/read-35015.html

专利

最新回复(0)