本申请涉及深度学习,特别涉及一种生成式大模型的质量评估方法、装置、存储介质及设备。
背景技术:
1、随着自然语言处理技术的快速发展,大语言模型技术越来越普遍。大语言模型是通过大规模数据集训练得到的生成式大模型,功能强大,包括识别、总结、翻译、预测和生成文本内容等。生成式大模型在诸多任务上表现出了杰出的能力。但在实际应用过程中,如何评估生成式大模型的质量对于我们来说也至关重要。
2、相关技术中,计算机设备可以根据标准答案和待评估答案计算评估指标,比如,双语评估替换(bilingual evaluationunderstudy,bleu)指标、以召回率为导向的摘要评估方法(recall-oriented understudy for gisting evaluation,rouge)指标等,再根据评估指标计算评分,然而这种评估缺乏对于待评估答案的整体语义的把握,导致评估不准确。
技术实现思路
1、本申请提供了一种生成式大模型的质量评估方法、装置、存储介质及设备,用于解决根据传统的评估指标计算评分,缺乏对待评估答案的整体语义的把握,导致评估不准确的问题。所述技术方案如下:
2、根据本申请的第一方面,提供了一种生成式大模型的质量评估方法,所述方法包括:
3、获取三元组,所述三元组包括问题、所述问题的标准答案和生成式大模型根据所述问题生成的待评估答案;
4、对于n个评估维度中的每个评估维度,根据所述评估维度对应的提示词模板对所述三元组生成一个提示词,n≥2;
5、利用预先训练的质量评估模型分别对每个评估维度对应的提示词进行处理,生成每个评估维度对应的一个文本等级,将所述文本等级转化成对应的评分,所述文本等级是在从优到差的区域内划分的、且用文字描述的多个等级中的一种;
6、对n个评分进行综合计算,得到所述待评估答案的质量评分,所述质量评分用于反映所述生成式大模型生成的答案的质量。
7、在一种可能的实现方式中,所述利用预先训练的质量评估模型分别对每个评估维度对应的提示词进行处理,包括:
8、利用所述质量评估模型从每个提示词中获取对应评估维度的评估规则;
9、利用所述质量评估模型根据所述评估规则对所述评估维度对应的三元组进行处理。
10、在一种可能的实现方式中,所述将所述文本等级转化成对应的评分,包括:
11、利用所述质量评估模型获取预设的映射关系,所述映射关系包括各个文本等级与各个评分之间的对应关系;
12、利用所述质量评估模型在所述映射关系中查找与生成的所述文本等级对应的评分。
13、在一种可能的实现方式中,所述方法还包括:
14、获取训练数据集,所述训练数据集中的每个训练样本包括三元组和n个实际评分,所述三元组包括问题、所述问题的标准答案和待评估答案,且所述n个实际评分对应于n个实际文本等级;
15、对于n个评估维度中的每个评估维度,根据所述评估维度对应的提示词模板对所述三元组生成一个提示词;
16、创建质量评估模型;
17、对于每个训练样本,利用所述质量评估模型对所述训练样本对应的n个提示词进行处理,得到n个预测评分;
18、利用预设的损失函数对所述n个实际评分和n个预测评分进行损失计算,根据计算结果对所述质量评估模型进行微调训练。
19、在一种可能的实现方式中,所述利用所述质量评估模型对所述训练样本对应的n个提示词进行处理,得到n个预测评分,包括:
20、利用所述质量评估模型对所述训练样本对应的n个提示词进行处理,得到n个评估维度对应的n个预测文本等级;
21、将所述n个预测文本等级转换成对应的n个预测评分。
22、在一种可能的实现方式中,所述损失函数是log-softmax。
23、根据本申请的第二方面,提供了一种生成式大模型的质量评估装置,所述装置包括:
24、获取模块,用于获取三元组,所述三元组包括问题、所述问题的标准答案和生成式大模型根据所述问题生成的待评估答案;
25、生成模块,用于对于n个评估维度中的每个评估维度,根据所述评估维度对应的提示词模板对所述三元组生成一个提示词,n≥2;
26、评分模块,用于利用预先训练的质量评估模型分别对每个评估维度对应的提示词进行处理,生成每个评估维度对应的一个文本等级,将所述文本等级转化成对应的评分,所述文本等级是在从优到差的区域内划分的、且用文字描述的多个等级中的一种;
27、评估模块,用于对n个评分进行综合计算,得到所述待评估答案的质量评分,所述质量评分用于反映所述生成式大模型生成的答案的质量。
28、在一种可能的实现方式中,所述获取模块,还用于获取训练数据集,所述训练数据集中的每个训练样本包括三元组和n个实际评分,所述三元组包括问题、所述问题的标准答案和待评估答案,且所述n个实际评分对应于n个实际文本等级;
29、所述生成模块,还用于对于n个评估维度中的每个评估维度,根据所述评估维度对应的提示词模板对所述三元组生成一个提示词;
30、创建模块,用于创建质量评估模型;
31、评分模块,用于对于每个训练样本,利用所述质量评估模型对所述训练样本对应的n个提示词进行处理,得到n个预测评分;
32、训练模块,用于利用预设的损失函数对所述n个实际评分和n个预测评分进行损失计算,根据计算结果对所述质量评估模型进行微调训练。
33、根据本申请的第三方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如上所述的生成式大模型的质量评估方法。
34、根据本申请的第四方面,提供了一种计算机设备,所述计算机设备包括上述生成式大模型的质量评估装置。
35、本申请提供的技术方案的有益效果至少包括:
36、微调是在预训练的大预言模型的基础上进行的训练,由于质量评估模型是大语言模型,所以,通过对质量评估模型进行微调训练,可以充分利用大预言模型的能力,简化了训练流程,提高了训练效率。并且,根据标注的训练数据集对质量评估模型进行微调训练时,可以根据用户需求对训练数据集进行扩展,从而实现了对质量评估模型的扩展。
37、质量评估模型可以针对n个评估维度生成n个评分,再对n个评分进行综合计算得到质量评分,实现了从多个评估维度进行评分,使得最终的质量评估更加稳定和全面,提高了质量评估的准确性。
1.一种生成式大模型的质量评估方法,其特征在于,所述方法包括:
2.根据权利要求1所述的生成式大模型的质量评估方法,其特征在于,所述利用预先训练的质量评估模型分别对每个评估维度对应的提示词进行处理,包括:
3.根据权利要求1所述的生成式大模型的质量评估方法,其特征在于,所述将所述文本等级转化成对应的评分,包括:
4.根据权利要求1至3任一项所述的生成式大模型的质量评估方法,其特征在于,所述方法还包括:
5.根据权利要求4所述的生成式大模型的质量评估方法,其特征在于,所述利用所述质量评估模型对所述训练样本对应的n个提示词进行处理,得到n个预测评分,包括:
6.根据权利要求4所述的生成式大模型的质量评估方法,其特征在于,所述损失函数是log-softmax。
7.一种生成式大模型的质量评估装置,其特征在于,所述装置包括:
8.根据权利要求7所述的生成式大模型的质量评估装置,其特征在于,
9.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如权利要求1至6任一所述的生成式大模型的质量评估方法。
10.一种计算机设备,其特征在于,计算机设备包括:权利要求7或8所述的生成式大模型的质量评估装置。