一种文本自检模型的微调方法、装置、存储介质、设备与流程

专利查询2025-10-19 27

本说明书涉及计算机，尤其涉及一种文本自检模型的微调方法、装置、存储介质、设备。

背景技术：

1、随着大语言模型的发展，越来越多的技术领域已经实现的大语言模型的部署及应用，其中，利用大语言模型为用户提供咨询服务是许多企业的常用选择。然而大语言模型针对用户的提问所输出的答复文本，可能存在违背法律法规或泄露企业隐私的敏感内容，由此便需要在将答复文本回复给用户之前，利用文本自检模型对生成的答复文本进行检测，对敏感内容进行处理。

2、然而，文本自检模型自身的参数量庞大，对文本自检模型进行模型训练对存储资源的要求极高。

3、由此，本发明，提供一种文本自检模型的微调方法、装置、存储介质、设备。

技术实现思路

1、本说明书提供一种文本自检模型的微调方法及装置，以部分的解决现有技术存在的上述问题。

2、本说明书采用下述技术方案：

3、本说明书提供了一种文本自检模型的微调方法，包括：

4、获取原始文本自检模型中指定网络层的初始参数；

5、针对所获取的每个指定网络层，对该指定网络层的初始参数进行降维；

6、根据降维后的各指定网络层与所述原始文本自检模型，得到降维文本自检模型；

7、将样本答复文本输入所述降维文本自检模型，得到所述降维文本自检模型输出的安全性评价；

8、根据所述安全性评价与所述样本答复文本所对应的安全标签的差异，对所述降维文本自检模型进行调整。

9、可选的，将样本答复文本输入所述降维文本自检模型，得到所述降维文本自检模型输出的安全性评价，具体包括：

10、将样本答复文本输入所述降维文本自检模型；

11、当任一指定网络层进行计算时，利用该指定网络层的第一参数与输入该指定网络层的特征相乘得到中间结果，利用该指定网络层的第二参数与所述中间结果相乘得到该指定网络层输出的特征，所述第一矩阵与所述第二矩阵的维度均小于该指定网络层的初始参数的维度；

12、根据所述降维文本自检模型中各指定网络层与其他网络层输出的特征，得到所述降维文本自检模型输出的安全性评价。

13、可选的，对该指定网络层的初始参数进行降维，具体包括：

14、根据该指定网络层的初始参数，确定该指定网络层的第一初始参数与第二初始参数；

15、在利用该指定网络层的第一参数与输入该指定网络层的特征相乘得到中间结果，利用该指定网络层的第二参数与所述中间结果相乘得到该指定网络层输出的特征之前，还包括：

16、根据该指定网络层的第一初始参数与第一增量，确定该指定网络层的第一参数，并，根据该指定网络层的第二初始参数与第二增量，确定该指定网络层的第二参数，其中，第一增量为微调过程中对该指定网络层的第一初始参数的总调整量，所述第一增量的维度与第一参数的维度相同，第二增量为微调过程中对该指定网络层的第二初始参数的总调整量，所述第二增量的维度与第二参数的维度相同。

17、可选的，根据所述安全性评价与所述样本答复文本所对应的安全标签的差异，对所述降维文本自检模型进行调整,具体包括：

18、根据所述安全性评价与所述样本答复文本所对应的安全标签，以预设的损失函数，确定损失值；

19、根据所述损失值确定参数增量；

20、根据所述参数增量对所述降维文本自检模型进行调整。

21、可选的，根据所述参数增量对所述降维文本自检模型进行调整，具体包括：

22、针对所述降维文本模型中的任一指定网络层，根据所述参数增量对该指定网络层的第一增量进行调整，并，根据所述参数增量对该指定网络层的第二增量进行调整。

23、可选的，根据所述安全性评价与所述样本答复文本所对应的安全标签，以预设的损失函数，确定损失值，具体包括：

24、确定所述安全性评价与所述样本答复文本所对应的安全标签的交叉熵损失，作为损失值。

25、可选的，还包括：

26、在对所述降维文本自检模型的微调结束后，针对所述降维文本自检模型中每个指定网络层，根据该指定网络层的第一参数与第二参数，重构该指定网络层的参数矩阵；

27、根据重构后的各指定网络层与所述降维文本自检模型，得到重构文本自检模型；

28、当大语言模型生成对用户的应用答复文本后，将所述应用答复文本输入所述重构文本自检模型，得到针对所述应用答复文本的安全性评价；

29、根据所述应用答复文本的安全性评价，将评价通过的应用答复文本展示给用户。

30、本说明书提供了一种文本自检模型的微调装置，包括：

31、获取模块，获取原始文本自检模型中指定网络层的初始参数；

32、降维模块，针对所获取的每个指定网络层，对该指定网络层的初始参数进行降维；

33、替换模块，根据降维后的各指定网络层与所述原始文本自检模型，得到降维文本自检模型；

34、评价模块，将样本答复文本输入所述降维文本自检模型，得到所述降维文本自检模型输出的安全性评价；

35、微调模块，根据所述安全性评价与所述样本答复文本所对应的安全标签的差异，对所述降维文本自检模型进行调整。

36、本说明书提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述文本自检模型的微调方法。

37、本说明书提供了一种设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述文本自检模型的微调方法。

38、本说明书采用的上述至少一个技术方案能够达到以下有益效果：

39、在本说明书提供的文本自检模型的微调方法中，获取原始文本自检模型中指定网络层的初始参数，针对所获取的每个指定网络层，对该指定网络层的初始参数进行降维，根据降维后的各指定网络层与所述原始文本自检模型，得到降维文本自检模型，将样本答复文本输入所述降维文本自检模型，得到所述降维文本自检模型输出的安全性评价，根据所述安全性评价与所述样本答复文本所对应的安全标签的差异，对所述降维文本自检模型进行调整。

40、从上述方法中可以看出，本方法可以降低文本自检模型微调过程对存储空间的需求，并降低进行微调时计算过程中的模型复杂度。

技术特征：

1.一种文本自检模型的微调方法，所述方法包括：

2.如权利要求1所述的方法，将样本答复文本输入所述降维文本自检模型，得到所述降维文本自检模型输出的安全性评价，具体包括：

3.如权利要求1或2所述的方法，对该指定网络层的初始参数进行降维，具体包括：

4.如权利要求3所述的方法，根据所述安全性评价与所述样本答复文本所对应的安全标签的差异，对所述降维文本自检模型进行调整,具体包括：

5.如权利要求4所述的方法，根据所述参数增量对所述降维文本自检模型进行调整，具体包括：

6.如权利要求4所述的方法，根据所述安全性评价与所述样本答复文本所对应的安全标签，以预设的损失函数，确定损失值，具体包括：

7.如权利要求2所述的方法，还包括：

8.一种文本自检模型的微调装置，包括：

9.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述权利要求1～7任一项所述的方法。

10.一种设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述权利要求1～7任一项所述的方法。

技术总结
本说明书公开了一种文本自检模型的微调方法、装置、存储介质、设备，获取原始文本自检模型中指定网络层的初始参数，针对所获取的每个指定网络层，对该指定网络层的初始参数进行降维，根据降维后的各指定网络层与所述原始文本自检模型，得到降维文本自检模型，将样本答复文本输入所述降维文本自检模型，得到所述降维文本自检模型输出的安全性评价，根据所述安全性评价与所述样本答复文本所对应的安全标签的差异，对所述降维文本自检模型进行调整，本方法可以降低文本自检模型微调过程对存储空间的需求，并降低进行微调时计算过程中的模型复杂度。

技术研发人员：田胜,但家旺,刘云飞,孟昌华,周璟,吴若凡,李金膛
受保护的技术使用者：支付宝（杭州）信息技术有限公司
技术研发日：
技术公布日：2024/11/26

转载请注明原文地址:https://tc.8miu.com/read-31430.html

专利

最新回复(0)