神经网络模型压缩方法与流程

    专利查询2026-05-16  7


    本申请涉及人工智能和深度学习领域,尤其涉及一种神经网络模型压缩方法。


    背景技术:

    1、随着人工智能和深度学习技术的快速发展,神经网络模型在多个细分技术领域取得了显著的成果。然而,随着模型复杂度的增加,模型的大小和计算需求也急剧增长,这给模型的训练、存储和部署带来了巨大的挑战。

    2、在这一背景下,神经网络模型压缩方法应运而生。神经网络模型压缩方法旨在,在不影响模型性能的前提下,减小模型的大小和计算复杂度。传统的神经网络模型压缩方法主要包括参数剪枝、低秩近似和量化等。参数剪枝通过移除权重较小或者对输出影响较小的神经元或连接来减少模型参数,但压缩效果好的方案往往会导致模型性能下降。低秩近似利用矩阵的低秩性质来近似原始模型,但这种方法通常只适用于具有特定结构的模型。量化技术通过降低模型参数(例如权重等)的精度来实现模型压缩,这决定了量化技术并不能改变模型的整体结构和拓扑,压缩效果收到约束,而一旦过度量化,则可能会引起不可接受的精度损失。

    3、随着深度学习框架和硬件的发展,出现了一些新的模型压缩技术,知识蒸馏是其中的代表示例。知识蒸馏通过训练一个较小的学生网络来模仿一个较大的教师网络的行为,使得学生网络在保持较低的计算复杂度和存储需求的同时,获得接近教师网络的性能。然而,通过知识蒸馏的方式进行模型压缩需要大量的训练时间和计算资源,甚至与单独训练同样规模的模型相比,还会增加资源占用强度。

    4、如此,尽管已经存在多种能够在一定程度上降低了模型的大小和计算复杂度的现有神经网络模型压缩方法,但这些方法仍存在各自的局限性。


    技术实现思路

    1、为了客服现有技术中存在的问题,本申请提出了一种神经网络模型压缩方法,该方法将模型压缩转换成二次无约束二元优化(qubo)问题或类似问题,从而能够实现更为高效、快速的神经网络模型压缩技术方案。

    2、根据本申请的一个方面,提出了一种神经网络模型压缩方法。该方法包括:根据教师模型和学生模型的规模参数,设置教师模型和学生模型在深度方向的映射关系;针对具有映射关系的学生模型的一层和教师模型的一层或多层,基于教师模型中的所述一层或多层的权重和输出,构建针对学生模型的所述一层的量子优化模型表达式;以及通过对量子优化模型表达式进行求解,得到学生模型的所述一层的模型参数。

    3、在一些实施例中,在设置教师模型和学生模型在深度方向的映射关系的步骤之前,本申请的方法还包括:确定学生模型的规模指标是否大于阈值数量。在学生模型的规模指标大于阈值数量的情况下,本申请的方法执行设置所述教师模型和所述学生模型在深度方向的映射关系的步骤;在学生模型的规模指标小于或等于阈值数量的情况下,不执行设置所述教师模型和所述学生模型在深度方向的映射关系的步骤。

    4、在一些实施例中,不执行设置所述教师模型和所述学生模型在深度方向的映射关系的步骤的情况下,本申请通过以下步骤确定学生模型的参数:根据所述学生模型的规模参数,确定所述学生模型的量子优化模型表达式,其中,所述量子优化模型表达式中包括,对应于所述学生模型的输出层的输出与各数据样本的真实标签的距离的真值约束项和对应于所述学生模型的输出层的输出与所述教师模型生成的各标签的距离的一致性约束项;通过对所述量子优化模型表达式进行求解,得到所述学生模型的参数。

    5、在一些实施例中,真值约束项为,

    6、

    7、其中,n表示所述学生模型的层数,ain表示输出层的输出向量,i表示第i个数据样本,表示第i个数据样本的真实标签;

    8、所述一致性约束项为,

    9、

    10、其中,表示所述教师模型针对第i个数据样本生成的软标签。

    11、在一些实施例中,规模指标是基于以下各项中的任一项或其中的组合得到的:权重数量、神经元数量以及层数量。

    12、在一些实施例中,规模参数是以下各项中的一项或多项:模型的深度比、层的宽度、层在深度方向的位置、层的类型以及层间的连接关系。

    13、在一些实施例中,如果学生模型中的第一层和第二层在深度方向上具有前后位置关系,则教师模型中与所述第一层具有映射关系的层和与所述第二层具有映射关系的层,在深度方向上也具有相同的前后位置关系。

    14、在一些实施例中,在构建针对学生模型的所述一层的量子优化模型表达式的步骤中,在与学生模型的所述一层具有映射关系的层是多层的情况下,所述构建是基于以下之一来实现的:所述多层中各层的权重和输出、所述多层中各层的权重和最后一层的输出、所述多层中最后一层的权重和输出。

    15、在一些实施例中,在构建针对所述学生模型的所述一层的量子优化模型表达式的步骤之前,所述方法还包括:针对具有映射关系的学生模型的一层和教师模型的一层或多层,确定学生模型的所述一层的宽度与所述教师模型的所述一层的宽度或所述多层中最后一层的宽度是否相同。

    16、在一些实施例中,在学生模型的所述一层的宽度与教师模型的所述一层的宽度或所述多层中最后一层的宽度相同的情况下,所述构建针对所述学生模型的所述一层的量子优化模型表达式的步骤包括:构建针对所述学生模型的所述一层的目标函数,其中,所述目标函数至少包括项和项,其中w和分别是所述学生模型的所述一层和所述教师模型的所述一层或多层对应的权重矩阵,xt和分别是所述学生模型的所述一层的输出向量和所述教师模型的所述一层或所述多层中最后一层的输出向量,ρ是模型的激活函数,α是权重一致性约束的强度系数;根据所述目标函数,构建所述量子优化模型表达式。

    17、在一些实施例中,在学生模型的所述一层的宽度与所述教师模型的所述一层的宽度或所述多层中最后一层的宽度不同的情况下,所述构建针对所述学生模型的所述一层的量子优化模型表达式的步骤包括:构建针对所述学生模型的所述一层的目标函数,其中,所述目标函数至少包括|xt-wxt-1|2项和项,其中w是所述学生模型的所述一层对应的权重矩阵,xt和分别是所述学生模型的所述一层的输出向量和所述教师模型的所述一层或所述多层中最后一层的输出向量,xt-1是所述学生模型的所述一层的上一层的输出向量,ρ是模型的激活函数,b是宽度对齐矩阵;根据所述目标函数,构建所述量子优化模型表达式。

    18、在一些实施例中,量子优化模型是二次无约束二元优化(qubo)模型或伊辛(ising)模型,以及在所述通过对所述量子优化模型表达式进行求解的步骤中,通过量子退火机或相干伊辛机进行求解。

    19、通过本申请提出的神经网络模型压缩方法,经由建立教师模型与学生模型之间的层映射关系,能够将神经网络模型压缩的问题转换成若干qubo问题或类似问题,从而能够实现更为高效、快速的神经网络模型压缩技术方案。



    技术特征:

    1.一种神经网络模型压缩方法,其特征在于,包括:

    2.根据权利要求1所述的神经网络模型压缩方法,在所述设置所述教师模型和所述学生模型在深度方向的映射关系的步骤之前,还包括:

    3.根据权利要求2所述的神经网络模型压缩方法,还包括,在所述学生模型的规模指标小于或等于阈值数量的情况下,不执行所述设置所述教师模型和所述学生模型在深度方向的映射关系的步骤,且

    4.根据权利要求3所述的神经网络模型压缩方法,其中,

    5.根据权利要求2-4中任一项所述的神经网络模型压缩方法,其中,所述规模指标是基于以下各项中的任一项或其中的组合得到的:权重数量、神经元数量以及层数量。

    6.根据权利要求1所述的神经网络模型压缩方法,其中,所述规模参数是以下各项中的一项或多项:模型的深度比、层的宽度、层在深度方向的位置、层的类型以及层间的连接关系。

    7.根据权利要求1所述的神经网络模型压缩方法,其中,如果所述学生模型中的第一层和第二层在深度方向上具有前后位置关系,则所述教师模型中与所述第一层具有映射关系的层和与所述第二层具有映射关系的层,在深度方向上也具有相同的前后位置关系。

    8.根据权利要求1所述的神经网络模型压缩方法,其中,在所述构建针对所述学生模型的所述一层的量子优化模型表达式的步骤中,在与所述学生模型的所述一层具有映射关系的层是多层的情况下,所述构建是基于以下之一来实现的:所述多层中各层的权重和输出、所述多层中各层的权重和最后一层的输出、所述多层中最后一层的权重和输出。

    9.根据权利要求1和6-8中任一项所述的神经网络模型压缩方法,在所述构建针对所述学生模型的所述一层的量子优化模型表达式的步骤之前,所述方法还包括:

    10.根据权利要求9所述的神经网络模型压缩方法,其中,在所述学生模型的所述一层的宽度与所述教师模型的所述一层的宽度或所述多层中最后一层的宽度相同的情况下,所述构建针对所述学生模型的所述一层的量子优化模型表达式的步骤包括:

    11.根据权利要求9所述的神经网络模型压缩方法,其中,在所述学生模型的所述一层的宽度与所述教师模型的所述一层的宽度或所述多层中最后一层的宽度不同的情况下,所述构建针对所述学生模型的所述一层的量子优化模型表达式的步骤包括:

    12.根据权利要求1所述的神经网络模型压缩方法,其中,所述量子优化模型是二次无约束二元优化(qubo)模型或伊辛(ising)模型,以及


    技术总结
    本申请公开了一种神经网络模型压缩方法。该方法包括:根据教师模型和学生模型的规模参数,设置教师模型和学生模型在深度方向的映射关系;针对具有映射关系的学生模型的一层和教师模型的一层或多层,基于教师模型中的一层或多层的权重和输出,构建针对学生模型的一层的量子优化模型表达式;以及通过对量子优化模型表达式进行求解,得到学生模型的一层的模型参数。通过本申请的神经网络模型压缩方法,将模型压缩转换成QUBO或其他类似问题,从而能够实现更为高效、快速的神经网络模型压缩方案。

    技术研发人员:文凯,马寅,曹崇育,朱洪东
    受保护的技术使用者:北京玻色量子科技有限公司
    技术研发日:
    技术公布日:2024/11/26
    转载请注明原文地址:https://tc.8miu.com/read-35744.html

    最新回复(0)