本发明属于持续学习,更具体地说,特别涉及一种持续学习的时间序列预测大模型。
背景技术:
1、随着大模型的出现,时序预测进入了一个新的阶段。目前,大模型与时序数据的结合成为了研究的热点。当前的时序预测方法通常需要丰富的领域知识,相比之下,llm已经被证明在少样本和零样本迁移学习方面的显著能力,不需要对每种类型的数据集和每种类型的任务针对性的设计和训练一个模型,使得时序预测更加通用、高效。当前主流的做法是peft,对预训练的llm进行微调,在现有peft技术中,lora能够显著减少保存参数量,并可以为不同任务构建不同的lora块,通过替换不同的lora使得llm能够适配不同的任务,因此,通常使用lora实现与时序任务进行对齐。然而,这些方法还是在研究llm如何有效的与时序数据结合,针对单一数据集进行微调验证,但是在实际场景中,时序数据类型复杂多样,为每个数据集微调一个模型不切实际,因此使模型具备持续学习的能力至关重要。
2、由于数据多样性与复杂性。不同领域和不同来源的时间序列数据在频率、周期性、趋势以及噪声特性上各不相同,设计一个普适的预测模型难度极大。大模型虽然具备一定的零样本能力,但是面对种类千差万别的实际数据,也很难完全做好,在零样本场景下,只能比普通的深度学习模型实现有限提升。
3、此外,在实际应用中,时间序列数据会不断产生,若对大模型重新进行训练则需要大量的计算资源和时间,因此,需要大模型适应新的数据变化并持续学习,而不是仅在静态历史数据集上训练。这要求大模型能够动态地从新数据中学习并快速适应,而避免忘记旧的知识。
4、现有的持续学习方法、o-lora等,在应用于时序大模型场景时,只能有限缓解,而无法避免遗忘。
5、由于上述挑战,现有的时间序列大模型难以在不同场景下对时间序列数据进行有效预测。
技术实现思路
1、为了解决上述技术问题,本发明提供了一种持续学习的时间序列预测大模型,以解决现有技术中,传统的持续学习方法会对历史知识产生灾难性遗忘,o-lora利用空间向量正交的方式缓解了灾难性遗忘,但对新任务的参数搜索空间添加了限制,导致新任务上无法达到最优性能。
2、本发明一种持续学习的时间序列预测大模型的目的与功效,由以下具体技术手段所达成:
3、一种持续学习的时间序列预测大模型,包括有以下步骤:
4、步骤一:分类阶段;
5、利用已有数据集训练一个多分类模型,对新增数据集进行分类,判断所属类别,将不属于现有已知类的,利用已有数据集和新数据集训练新的分类模型,并与旧分类模型集成;
6、步骤二:预测阶段;
7、对每个类别,利用该类别数据微调时序大模型,得到每个类别的lora模块,将新增相似数据集在对应类别进行增量训练后进行推理预测,然后将不属于任一已知类别的数据集,重新初始化一个lora模块进行训练;
8、或者,将大模型与时序数据对齐后,利用冻结的大模型得到输入时间序列的潜在表示,同时每一个lora矩阵用一个向量进行表征,将该表示与lora表征进行匹配,选择相似度最高的lora进行后续预测任务。
9、在一个优选地实施方式中,通过前置分类模块,并对每类训练或增量训练一个lora模块,实现持续学习,同时设计新的加权分类损失以缓解分类阶段准确率对后续预测任务的影响。
10、在一个优选地实施方式中,所述分类模型可采用统计方法、机器学习或深度学习分类方式,通过已有数据训练基多分类模型,对新数据集判断所属类别,训练结束后表现为多个分类模型的集成。
11、在一个优选地实施方式中,所述加权分类损失中,相似类分类错误惩罚小,不相似类分类错误惩罚大,降低二阶段累计误差对预测结果的影响,
12、
13、其中w表示相似类对应的权重值,取值范围为(0,1)。
14、在一个优选地实施方式中,在步骤二中,所述推理预测过程为:先对输入数据分类,再选择对应lora模块与时序大模型结合进行预测任务。
15、在一个优选地实施方式中,所述预测阶段包括有预测模型,所述预测模型采用llm作为骨干网络,预训练时将llm的预测头层和嵌入层与时间序列对齐,后续训练仅利用lora对注意力层微调,同时冻结其他模块以保证预测能力并降低存储成本。
16、现有技术相比,本发明具有如下有益效果:
17、1.通过前置分类模块,并对每类训练或增量训练lora模块,通过实现了持续学习,使得知识能够持续积累,无论是新的数据还是历史数据,都能在模型中得到充分利用和优化,解决了传统的持续学习方法会对历史知识产生灾难性遗忘的问题,从而提高了该模型的整体性能和适应性。
18、2.除了用于微调的lora参数矩阵之外,该模型在持续学习过程中只需要更新分类器,而不需要对整个模型进行重新训练,解决了传统的持续学习方法随着数据的持续增长和变化,模型更新维护困难、成本高的问题,不仅大大节省了计算资源和时间成本,还提高了模型更新的效率和灵活性,使得该模型能够快速适应新的数据模式和结构,保持良好的预测能力。
19、3.通过创新的加权分类损失策略,有效地减轻了数据错误分类对后续预测性能的影响,通过加权分类损失使得错误分类的影响得以减轻;当数据被错误分类时,更容易被分到相似类中,从而降低了两阶段过程中第一阶段分类准确率对第二阶段的负面影响,从而提高了该模型的容错率,使得该模型在面对复杂多变的数据环境时,仍能保持稳定的预测性能。
1.一种持续学习的时间序列预测大模型,其特征在于:包括有以下步骤:
2.根据权利要求1所述的一种持续学习的时间序列预测大模型,其特征在于:通过前置分类模块,并对每类训练或增量训练一个lora模块,实现持续学习,同时设计新的加权分类损失以缓解分类阶段准确率对后续预测任务的影响。
3.根据权利要求2所述的一种持续学习的时间序列预测大模型,其特征在于:所述分类模型可采用统计方法、机器学习或深度学习分类方式,通过已有数据训练基多分类模型,对新数据集判断所属类别,训练结束后表现为多个分类模型的集成。
4.根据权利要求3所述的一种持续学习的时间序列预测大模型,其特征在于:所述加权分类损失中,相似类分类错误惩罚小,不相似类分类错误惩罚大,降低二阶段累计误差对预测结果的影响,
5.根据权利要求1所述的一种持续学习的时间序列预测大模型,其特征在于:在步骤二中,所述推理预测过程为:先对输入数据分类,再选择对应lora模块与时序大模型结合进行预测任务。
6.根据权利要求5所述的一种持续学习的时间序列预测大模型,其特征在于:所述预测阶段包括有预测模型,所述预测模型采用llm作为骨干网络,预训练时将llm的预测头层和嵌入层与时间序列对齐,后续训练仅利用lora对注意力层微调,同时冻结其他模块以保证预测能力并降低存储成本。