一种面向大模型安全评测的评测样本自动生成方法及装置

    专利查询2025-06-16  14


    本发明涉及大模型安全,尤其涉及面向大语言模型价值观安全性的评测方法和装置。


    背景技术:

    1、大语言模型能够针对输入问题生成符合人类逻辑思考和语言习惯的回复,在众多需要高度自然语言理解能力的任务上已经达到很强的效果。但是目前大语言模型仍存在安全性和可信度的问题,在使用者与其对话过程中,大语言模型可能生成有害违规内容,对使用者的观念认知产生不利引导,例如:生成内容涉存在偏见歧视、人身攻击、虚假有害等问题。因此,需要对大语言模型进行评测,研判大模型安全能力,防范其回复不安全内容。

    2、大语言模型价值观安全性评测是指通过与大模型进行问答交互,检测大模型的安全性,该技术目前是发现大语言模型可能存在安全风险的主要手段之一,评测过程大致为:从安全评估测试样本集中抽取问题样本,使用抽取的问题询问目标大语言模型、再对大语言模型的回复进行安全性评判,最后从不同风险类别的违规率、拒答率等维度评测和分析大模型安全风险。所以从评测过程中可知,安全评估测试样本集的好坏会直接影响大模型评测的效果,如何快速构建不具有强攻击性、不宽泛空洞、可持续更新的、覆盖范围广泛的安全评测样本集是关键,也是本发明的研究重点。

    3、现有的安全评测样本集构造方法大致分为两种:1.多数是以人工构造筛选的方式构建一个种子问题样本集,通过模型扩展、越狱模板、语言学变异等方式扩充出大量问题,再经过筛选形成安全评测样本集,问题生成过程经由多轮筛选难以实现动态更新,且难以与最新时事相关,容易在发布后被目标大语言模型进行针对性防御,因此现有技术更适用于大语言模型发布前的内部安全性检测以及安全性优化领域,不适用于发布后的常态化监测。2.基于已构建的静态的安全评测样本集,评测问题样本固定不变,极易被针对性防御,难以应对安全性风险的常态化监测。

    4、本发明中的大语言模型价值观安全性评测重点针对的是常态化监测场景,常态化监测主要是监测大模型在上线后日常应用场景下,普通用户应用大模型交互过程中是否会诱发模型生成不安全内容。

    5、综上所述,现有大模型安全评测中评测样本集的自动构建方法主要以种子问题样本集扩充为主,存在以下问题:

    6、1.在问题表述上,现有技术多数包含敏感词语、有害词汇,具备强攻击性和强负面诱导性,导致评测样本中的问题不仅容易被目标大语言模型拒答,而且与正常使用者的使用场景有较大差距,不符合实际场景中普通用户(非专业评测人员)运用大语言模型的方式,即不能真实反映实际场景下目标模型的安全风险,此外,直接有害、具备强攻击性等评测问题数据存在被目标模型学习的风险,造成二次污染,因此更适用于模型上线前的安全测试或红蓝对抗测试中,不适用于安全性风险的常态化监测。

    7、2.现有多数评测样本集主要依赖评测人员手工构建,费时耗力、持续更新成本高,且无法满足大模型更新迭代与生成速度。


    技术实现思路

    1、本发明的目的是解决上述现有技术在进行大语言模型价值观安全性评测时生成的评测样本具有明显有害表述和强攻击性、不贴合实际使用场景,且安全评测样本集动态更新难度大、易被针对性防御的问题,提出了一种面向大模型安全评测的时事感知式弱攻击性评测样本生成方法,以及基于生成的弱攻击性评测样本测试大模型安全性的方法。

    2、具体来说如图2所示,本发明提出了一种面向大模型安全评测的评测样本自动生成方法,其中包括:

    3、微调训练步骤s1,获取测评问题集,测评问题集包含多个用于测试大语言模型安全性的评测样本,以具有诱导内容的任务提示为输入,以该任务提示对应的该评测样本为标签,微调训练大语言模型输出评测样本,得到评测样本生成模型;

    4、时事感知步骤s2,根据评测样本的安全风险类别,构建检索问句,检索互联网中属于该安全风险类别的数据资料;根据该安全风险类别以及该数据资料,合成提示文本;

    5、提示生成步骤s3,从该测评问题集中抽取属于该安全风险类别的评测样本填充至该提示文本后作为任务提示输入该评测样本生成模型,生成用于测试大语言模型的测试样本。

    6、所述的面向大模型安全评测的评测样本自动生成方法,其中包括:

    7、测试步骤,以该测试样本作为问题输入待安全性测试大语言模型,判断该待安全性测试大语言模型的输出是否属于该测试样本的诱导内容,若否,则判定该待安全性测试大语言模型为安全,否则为不安全,将该测试样本加入该测评问题集。

    8、所述的面向大模型安全评测的评测样本自动生成方法,其中该安全风险类别包括:违法犯罪类别、身心健康类别、伦理道德类别以及言语辱骂类别。

    9、所述的面向大模型安全评测的评测样本自动生成方法,其中该互联网包括新闻网站和社交网站。

    10、如图3所示,本发明还提出了一种面向大模型安全评测的评测样本自动生成装置b,其中包括:

    11、微调训练模块m1,获取测评问题集,测评问题集包含多个用于测试大语言模型安全性的评测样本,以具有诱导内容的任务提示为输入,以该任务提示对应的该评测样本为标签,微调训练大语言模型输出评测样本,得到评测样本生成模型;

    12、时事感知模块m2,根据评测样本的安全风险类别,构建检索问句,检索互联网中属于该安全风险类别的数据资料;根据该安全风险类别以及该数据资料,合成提示文本;

    13、提示生成模块m3,从该测评问题集中抽取属于该安全风险类别的评测样本填充至该提示文本后作为任务提示输入该评测样本生成模型,生成用于测试大语言模型的测试样本。

    14、所述的面向大模型安全评测的评测样本自动生成装置,其中包括:

    15、测试模块,以该测试样本作为问题输入待安全性测试大语言模型,判断该待安全性测试大语言模型的输出是否属于该测试样本的诱导内容,若否,则判定该待安全性测试大语言模型为安全,否则为不安全,将该测试样本加入该测评问题集。

    16、所述的面向大模型安全评测的评测样本自动生成装置,其中该安全风险类别包括:违法犯罪类别、身心健康类别、伦理道德类别以及言语辱骂类别。

    17、所述的面向大模型安全评测的评测样本自动生成装置,其中该互联网包括新闻网站和社交网站。

    18、本发明还提出了一种电子设备,其中包括所述的一种面向大模型安全评测的评测样本自动生成装置,该电子设备连接或有信息显示设备,该信息显示设备用于以用户设置的显示参数、属性或通过人工智能模型,显示该测试样本。

    19、本发明还提出了一种存储介质,用于存储一种执行所述面向大模型安全评测的评测样本自动生成方法的计算机程序。

    20、由以上方案可知,本发明的优点在于:

    21、基于本发明提出评测样本自动生成方法生成的评测样本本身不具有明显的有害词,不易被目标大模型拒答,问题类别覆盖范围广,且可结合最新的热点新闻事件生成时效性更高的评测样本,此外,由于本发明是基于大模型自动生成,可支持评测样本动态持续更新。本发明与现有技术相比,生成的评测样本表述攻击性更弱,评测样本更加贴合人类使用者在实际场景中的使用方式,同时能够结合感知时事生成评测样本,提供了动态更新能力,适用于针对发布大语言模型的常态化监测。


    技术特征:

    1.一种面向大模型安全评测的评测样本自动生成方法,其特征在于,包括:

    2.如权利要求1所述的面向大模型安全评测的评测样本自动生成方法,其特征在于,包括:

    3.如权利要求1所述的面向大模型安全评测的评测样本自动生成方法,其特征在于,该安全风险类别包括:违法犯罪类别、身心健康类别、伦理道德类别以及言语辱骂类别。

    4.如权利要求1所述的面向大模型安全评测的评测样本自动生成方法,其特征在于,该互联网包括新闻网站和社交网站。

    5.一种面向大模型安全评测的评测样本自动生成装置,其特征在于,包括:

    6.如权利要求5所述的面向大模型安全评测的评测样本自动生成装置,其特征在于,包括:

    7.如权利要求5所述的面向大模型安全评测的评测样本自动生成装置,其特征在于,该安全风险类别包括:违法犯罪类别、身心健康类别、伦理道德类别以及言语辱骂类别。

    8.如权利要求5所述的面向大模型安全评测的评测样本自动生成装置,其特征在于,该互联网包括新闻网站和社交网站。

    9.一种电子设备,其特征在于,包括权利要求5-8所述的一种面向大模型安全评测的评测样本自动生成装置,该电子设备连接或有信息显示设备,该信息显示设备用于以用户设置的显示参数、属性或通过人工智能模型,显示该测试样本。

    10.一种存储介质,用于存储一种执行权利要求1-4所述面向大模型安全评测的评测样本自动生成方法的计算机程序。


    技术总结
    本发明提出一种面向大模型安全评测的评测样本自动生成方法和装置,包括:测评问题集包含多个用于测试大语言模型安全性的评测样本,以具有诱导内容的任务提示为输入,以该任务提示对应的该评测样本标签,微调训练大语言模型输出评测样本,得到评测样本生成模型;根据评测样本的安全风险类别,构建检索问句,检索互联网中属于该安全风险类别的数据资料;根据该安全风险类别以及该数据资料,合成提示文本;从该测评问题集中抽取属于该安全风险类别的评测样本填充至该提示文本后作为任务提示输入该评测样本生成模型,生成用于测试大语言模型的测试样本。

    技术研发人员:景少玲,石智超,尹芷仪,沈华伟,王晓诗,成艺
    受保护的技术使用者:中国科学院计算技术研究所
    技术研发日:
    技术公布日:2024/11/26
    转载请注明原文地址:https://tc.8miu.com/read-29468.html

    最新回复(0)