一种基于双大模型的网民观点分析方法与流程

    专利查询2026-05-06  2


    本发明涉及网络信息处理,更具体地,涉及一种基于双大模型的网民观点分析方法。


    背景技术:

    1、随着互联网的发展和普及,越来越多的网民通过互联网上的各个平台和渠道来表达观点、传播思想。网民观点分析旨在对网民的评论和观点进行聚类、总结和分析。通过收集特定话题下的评论和转发内容,并从中挖掘出用户的观点信息,通过对这些观点信息进行分类,从而快速了解网民对于特定话题的态度和看法。

    2、传统的网民观点分析方法主要可分为人工干预和非人工干预:1)人工干预是指通过各种聚类方式将文本聚类成多个组,然后通过人工针对每个组进行代表观点总结,该方法费时费力,扩展性低;2)非人工干预是指通过各种聚类方式将文本聚类成多个组,然后利用大语言模型(large language model,llm)对每个组总结出观点,尽管大语言模型在自然语言处理任务中表现出了强大的能力,但这种方法存在聚类可解释性低,无法按照不同的维度去聚类(如按人群、按用户偏好等)的问题,而且聚类算法大多依赖底座模型,后续对聚类效果的优化难度大。

    3、大语言模型的上下文长度是指在大模型的输入加上输出的字符(token)总数,这个数字会被限制,如果超过这个长度的字符会被大模型丢弃。由于互联网上存在着海量的网民观点文本,因此对于大模型的上下文长度有一定的要求。目前开源的大语言模型上下文长度一般不长,比如llama 2只有4k,code-llama系列因为需要输入代码,扩展到了16k;闭源系列模型的提供了更长的上下文长度,比如openai在其最新模型gpt-4 turbo中提供了128k的上下文长度,anthropic的claude 2.1模型提供了200k上下文长度。要想得从海量的文本中总结得出精度更高的网民观点,就必须对大模型的上下文长度进行扩展。

    4、对大模型的上下文长度进行扩展一般有两种途径:1)一种是大模型在初始阶段被设置为长上下文,然后经过预训练、指令微调、对齐训练等方式得到一个长上下文大模型,然而长文本训练需要大量显存和计算资源;2)另外一种方式是选择已经训练好的大模型,通过技术改造其编码方式,从而扩展其上下文长度,然后再进行微调训练得到长上下文大模型。例如,专利文件“cn117875434a”中公开了一种用于扩展输入上下文长度的金融大模型长度外推方法,该方案通过改进模型的位置编码,提升模型对更长上下文的处理能力,通过引入比例因子和位置偏置的动态计算,优化了模型对长距离依赖关系的捕捉能力,同时避免了对模型进行大规模微调的需要;然而该方案问题在于在扩展上下文长度的同时,可能会对模型的其他方面性能产生影响,例如模型可能在处理短文本或中等长度文本时效率降低;且方案是否能够在不同类型的长文本数据上保持一致的性能尚不清楚;由于方案是不通过垂直领域数据的微调,如果模型在训练过程中没有接触到足够多的长文本或相关任务,它在实际应用中处理长文本的能力可能会受限,在网民观点分析场景下的效果并不能保证。

    5、总的来说,传统的网民观点聚类分析方案存在以下问题:对底座模型依赖性强,在模型鲁棒性方面存在缺陷,而且后续的更新维护复杂;其次,在处理大规模数据时,现有技术使用的聚类算法(如基于余弦相似度的聚类、ap聚类算法)性能差且优化难度大;另外,现有的大型语言模型(llms)在处理长文本时受限于较短的上下文窗口,这限制了模型在理解长距离依赖关系时的能力,无法单次输入很多数据到模型中进行分析,影响了分析速度和精度。


    技术实现思路

    1、本发明为克服上述现有技术存在模型鲁棒性差、分析效率和精度低和后续难以维护优化的缺陷,提供一种基于双大模型的网民观点分析方法,通过一个大模型进行文本压缩,然后利用另一个大模型进行网民观点聚类分析,替换了原始的传统文本聚类方案,直接利用两个大模型分别进行聚类和观点总结,可解释性强,后续优化容易;同时提高大模型的输入上下文长度,让大模型能够一次性处理更多的文本,从而提高观点总结的速度和精度。

    2、为解决上述技术问题,本发明的技术方案如下:

    3、一种基于双大模型的网民观点分析方法,包括以下步骤:

    4、s1:从互联网上采集网民评论文本数据集并进行预处理;

    5、s2:选取第一大模型和第二大模型并分别进行上下文长度扩展,分别获取上下文长度扩展后的第一大模型和第二大模型;

    6、s3:利用预处理后的网民评论文本数据集对所述上下文长度扩展后的第一大模型和第二大模型分别进行微调和训练,获取训练好的第一大模型和第二大模型;

    7、s4:获取待分析的网民评论文本数据集并输入训练好的第一大模型进行文本压缩,获取文本压缩后的网民评论数据集;

    8、s5:将所述文本压缩后的网民评论数据集输入训练好的第二大模型进行文本聚类,获取若干个网民评论类别的代表观点;

    9、s6:利用所述训练好的第二大模型对所有代表观点进行二次聚类和观点总结,获取最终的网民观点分析结果。

    10、优选地,所述步骤s1包括:

    11、从互联网上的各个社媒渠道采集若干条网民评论,并对采集到的网民评论进行数据清洗,去除纯表情评论和无用文本,构建网民评论文本数据集;

    12、利用所述网民评论文本数据集构建文本压缩问答对数据集、文本聚类数据集和密钥检索数据集,完成预处理;

    13、所述文本压缩问答对数据集和文本聚类数据集分别用于对上下文长度扩展后的第一大模型和第二大模型进行微调和训练,所述密钥检索数据集用于对第一大模型和第二大模型进行上下文长度扩展。

    14、优选地,所述文本压缩问答对数据集中,每条数据均为包含输入和输出的文本压缩问答对,所述文本压缩问答对的输入为文本压缩prompt和网民评论原文,输出为文本压缩结果;

    15、所述文本压缩prompt用于指导大模型完成文本压缩任务;

    16、构建所述文本压缩问答对数据集包括以下步骤:

    17、调用外部至少2种大模型,将每个所调用的外部大模型均设置为相同的文本压缩prompt,并分别输入网民评论原文,生成每种外部大模型对应的文本压缩结果;

    18、对于每条网民评论原文,分别计算每种外部大模型的文本压缩结果与其他的文本压缩结果之间的文本相似度;基于编辑距离或余弦距离计算所述文本相似度;

    19、若存在2个外部大模型的文本压缩结果相似度大于预设阈值,则将该网民评论原文、文本压缩prompt,以及2个外部大模型任意一个输出的文本压缩结果构成一个文本压缩问答对;

    20、否则,对该网民评论原文和所有外部大模型的文本压缩结果进行人工句法分析,对比网民评论原文和所有外部大模型的文本压缩结果句子成分之间的重合度,选取重合度最高的文本压缩结果和该网民评论原文,以及文本压缩prompt构成一个文本压缩问答对;

    21、将所有文本压缩问答对保存为所述文本压缩问答对数据集。

    22、优选地,所述文本聚类数据集的输入为文本聚类prompt和编号后网民评论原文,输出为文本聚类结果;所述文本聚类结果包括若干个分组及每个分组的代表观点和网民评论原文编号;

    23、构建所述文本聚类数据集包括以下步骤:

    24、对每条网民评论进行一一对应地编号,获取编号后的网民评论原文;

    25、一次聚类:使用bertopic、层次聚类和ap聚类中的任意一种聚类算法对所有编号后的网民评论原文进行聚类,将所有编号后的网民评论原文分成多个文本组,每个所述文本组都是语义相似的网民评论;

    26、按点赞数或互动量指标对每个所述文本组中的网民评论进行排序,抽取排名在一定百分比之前的网民评论,并调用预设的外部大模型,将预设的文本聚类prompt设置为外部大模型的提示词进行文本总结,输出每个文本组对应的代表观点;

    27、二次聚类:基于聚类算法和外部大模型对一次聚类获取的每个文本组对应的代表观点进行二次聚类,将相似的文本组及其代表观点进行合并,获取最终的分组及每个分组的代表观点,并与每个分组的网民评论原文编号共同保存为文本聚类结果;

    28、将所述文本聚类prompt、编号后网民评论原文和文本聚类结果共同保存为文本聚类数据集。

    29、优选地,所述二次聚类的过程中,使用与一次聚类相同的聚类算法,但使用不同的外部大模型;

    30、或使用与一次聚类不同的聚类算法,但使用相同的外部大模型;

    31、或使用与一次聚类不同的聚类算法,但使用不同的外部大模型;

    32、所述二次聚类与一次聚类过程中,所用外部大模型的提示词均为文本聚类prompt。

    33、优选地,所述密钥检索数据集基于编号后的网民评论原文,输入为密钥检索prompt,所述密钥检索prompt中包含有若干个编号;输出为每个所述编号对应的网民评论原文。

    34、优选地,所述步骤s2中,分别对第一大模型和第二大模型进行上下文长度扩展包括:

    35、对于选取的第一大模型和第二大模型,分别初始化其rope的位置编码,为每个rope维度设置一个初始缩放因子,将每个rope维度的缩放因子设为可训练的参数;

    36、所述rope编码计算公式为:

    37、

    38、其中,表示位置n的编码,d是文本嵌入维度,n是token的位置索引,是token在位置n第i个维度的旋转角度,满足;

    39、将缩放因子设为可训练参数后,修改后的rope编码计算公式为:

    40、

    41、其中,为位置n加入缩放因子后的编码;为第i个维度可训练的缩放因子;每个所述缩放因子均为随机初始化的不同值;

    42、设置余弦相似度损失函数,利用所述密钥检索数据集对初始化后的第一大模型和第二大模型进行上下文长度扩展训练,在所述上下文长度扩展训练过程中,对每个rope维度的缩放因子进行迭代更新,直至获取使得余弦相似度损失函数最小的缩放因子并保存,获取上下文长度扩展后的第一大模型和第二大模型。

    43、优选地,所述步骤s3中,利用预处理后的网民评论文本数据集对所述上下文长度扩展后的第一大模型进行微调和训练的过程包括:

    44、为所述上下文长度扩展后的第一大模型设置文本压缩损失函数,利用所述文本压缩问答对数据集对上下文长度扩展后的第一大模型进行全参数微调和训练,直至所述文本压缩损失函数取得最小值时,获取训练好的第一大模型;

    45、所述文本压缩损失函数包括交叉熵损失函数和余弦相似度损失函数中的任意一种。

    46、优选地,所述步骤s3中,利用预处理后的网民评论文本数据集对所述上下文长度扩展后的第二大模型进行微调和训练的过程包括:

    47、基于所述文本聚类数据集构建正负样本对,所述正负样本对中,正样本为同一分组内的其他样本,负样本为其他分组中的样本;

    48、对于文本聚类任务,设置文本聚类损失函数,并利用lora算法和正负样本对微调和训练所述上下文长度扩展后的第二大模型,获取一次训练后的第二大模型;

    49、所述文本聚类损失函数具体为:

    50、

    51、其中,为文本聚类损失函数值,n是一个训练批次中的样本数量;m 是每个样本要比较的正样本和负样本的总数;为第i个正样本和第j个负样本之间的相似度,所述为第i个负样本,所述相似度为点积或余弦相似度;为温度参数;

    52、对于代表观点的二次聚类任务,设置观点总结损失函数,并利用强化学习dpo算法和正负样本对微调和训练所述一次训练后的第二大模型,获取最终的训练好的第二大模型;

    53、所述观点总结损失函数具体为dpo损失函数。

    54、优选地,所述步骤s2中的第一大模型和第二大模型均为:llama、qwen、baichuan、deepseek和mistral大语言模型中的任意一种。

    55、与现有技术相比,本发明技术方案的有益效果是:

    56、本发明提供一种基于双大模型的网民观点分析方法,首先从互联网上采集网民评论文本数据集并进行预处理;接着选取第一大模型和第二大模型并分别进行上下文长度扩展;随后利用预处理后的网民评论文本数据集对上下文长度扩展后的第一大模型和第二大模型分别进行微调和训练;之后获取待分析的网民评论文本数据集并输入训练好的第一大模型进行文本压缩,获取文本压缩后的网民评论数据集;将文本压缩后的网民评论数据集输入训练好的第二大模型进行文本聚类,获取若干个网民评论类别的代表观点;利用训练好的第二大模型对所有代表观点进行二次聚类和观点总结,获取最终的网民观点分析结果;

    57、本发明利用第一大模型进行长文本压缩,有助于后续第二大模型在网民观点聚类分析时更好地理解文本的结构和语义,直接使用两个大模型进行聚类和观点总结,可解释性强,后续优化容易;同时,本发明扩展了两个大模型的输入上下文长度,让大模型能够一次性处理更多的文本,从而提高观点总结的速度和精度;另外,本发明不仅能够对长文本数据进行有效的处理和分析,还能够提供深入的洞察和理解,而且后面能够通过用户的自定义进行特定角度的聚类,除了输出网民的代表观点,还可以适用于输出情感、代表关键词等应用场景,并输出分析理由,总之,本发明的聚类效果可以定向优化,从而让整个网民观点聚类分析的流程变得更加可解释化和效果可控。


    技术特征:

    1.一种基于双大模型的网民观点分析方法,其特征在于,包括以下步骤:

    2.根据权利要求1所述的一种基于双大模型的网民观点分析方法,其特征在于,所述步骤s1包括:

    3.根据权利要求2所述的一种基于双大模型的网民观点分析方法,其特征在于,所述文本压缩问答对数据集中,每条数据均为包含输入和输出的文本压缩问答对,所述文本压缩问答对的输入为文本压缩prompt和网民评论原文,输出为文本压缩结果;

    4.根据权利要求2所述的一种基于双大模型的网民观点分析方法,其特征在于,所述文本聚类数据集的输入为文本聚类prompt和编号后网民评论原文,输出为文本聚类结果;所述文本聚类结果包括若干个分组及每个分组的代表观点和网民评论原文编号;

    5.根据权利要求4所述的一种基于双大模型的网民观点分析方法,其特征在于,所述二次聚类的过程中,使用与一次聚类相同的聚类算法,但使用不同的外部大模型;

    6.根据权利要求2所述的一种基于双大模型的网民观点分析方法,其特征在于,所述密钥检索数据集基于编号后的网民评论原文,输入为密钥检索prompt,所述密钥检索prompt中包含有若干个编号;输出为每个所述编号对应的网民评论原文。

    7.根据权利要求2所述的一种基于双大模型的网民观点分析方法,其特征在于,所述步骤s2中,分别对第一大模型和第二大模型进行上下文长度扩展包括:

    8.根据权利要求2所述的一种基于双大模型的网民观点分析方法,其特征在于,所述步骤s3中,利用预处理后的网民评论文本数据集对所述上下文长度扩展后的第一大模型进行微调和训练的过程包括:

    9.根据权利要求2所述的一种基于双大模型的网民观点分析方法,其特征在于,所述步骤s3中,利用预处理后的网民评论文本数据集对所述上下文长度扩展后的第二大模型进行微调和训练的过程包括:

    10.根据权利要求1~9任意一项中所述的一种基于双大模型的网民观点分析方法,其特征在于,所述步骤s2中的第一大模型和第二大模型均为:llama、qwen、baichuan、deepseek和mistral大语言模型中的任意一种。


    技术总结
    本发明提供一种基于双大模型的网民观点分析方法,包括:从互联网上采集网民评论文本数据集并进行预处理;选取第一大模型和第二大模型并分别进行上下文长度扩展;利用预处理后的网民评论文本数据集对上下文长度扩展后的第一大模型和第二大模型分别进行微调和训练;利用训练好的第一和第二大模型对待分析的网民评论文本数据集进行网民观点分析;本发明利用第一大模型进行长文本压缩,有助于后续第二大模型在网民观点聚类分析时更好地理解文本的结构和语义,直接使用两个大模型进行聚类和观点总结,可解释性强,后续优化容易;同时,本发明扩展了两个大模型的输入上下文长度,让大模型能够一次性处理更多的文本,从而提高观点总结的速度和精度。

    技术研发人员:徐亚波,李旭日,牟昊,何宇轩,黄于晏,汤林越
    受保护的技术使用者:广东横琴数说故事信息科技有限公司
    技术研发日:
    技术公布日:2024/11/26
    转载请注明原文地址:https://tc.8miu.com/read-35395.html

    最新回复(0)