基于分类模型的视频分类方法、装置、设备、介质及产品与流程

专利查询2024-07-27 24

1.本技术涉及互联网技术，尤其涉及一种基于分类模型的视频分类方法、装置、设备、计算机可读存储介质及计算机程序产品。

背景技术：

2.相关技术中视频分类与视频流理解的实现上主要基于三种模型，第一种是基于卷积神经网络(convolutional neural network，cnn)的视频分类器；第二种是基于transformer架构的视频分类器；第三种是基于多层感知器框架(multilayer perceptron，mlp)的特征提取器。
3.然而，对于上述第一种模型而言，卷积神经网络虽然能够很好地捕捉视频流的局部时空特征，但是存在时空特征提取不充分以及计算量较大的问题；而对于上述第二种模型而言，虽然能够很好地捕捉帧与帧之间的长依赖关系从而辅助网络进行视频流的分类任务，但是模型本身设计复杂度较高，一定程度上限制了此类模型在工业场景乃至商业场景的实际利用；而对于上述第三种模型而言，虽然既继承了transformer架构捕捉全局信息依赖关系的特点，又继承了卷积神经网络框架推理速度较快的优点，但是仅局限于解决图像的空间特征提取，不能够很好地解决视频分类的相关任务。

技术实现要素：

4.本技术实施例提供一种基于分类模型的视频分类方法、装置、电子设备、计算机可读存储介质及计算机程序产品，能够提高针对视频内容理解的精确度，从而完成不同场景下的视频分类任务。
5.本技术实施例的技术方案是这样实现的：
6.本技术实施例提供一种基于分类模型的视频分类方法，所述分类模型包括：主特征提取网络、副特征提取网络、特征融合层及视频分类层，所述方法包括：
7.通过所述主特征提取网络，对待分类视频进行第一特征提取，得到所述待分类视频的全局时空特征，所述全局时空特征融合有所述待分类视频的空间特征及所述待分类视频的时间特征；
8.通过所述副特征提取网络，对所述待分类视频进行第二特征提取，得到所述待分类视频的局部时空特征，所述局部时空特征融合有所述待分类视频的时间特征、及所述待分类视频在至少两个空间维度的空间子特征；
9.通过所述特征融合层，对所述全局时空特征以及所述局部时空特征进行特征融合，得到所述待分类视频的目标时空特征；
10.通过所述视频分类层，基于所述目标时空特征对所述待分类视频进行视频分类，得到所述待分类视频所归属的视频类别。
11.本技术实施例提供一种基于分类模型的视频分类装置，所述分类模型包括：主特征提取网络、副特征提取网络、特征融合层及视频分类层，所述装置包括：
12.主特征提取模块，用于通过所述主特征提取网络，对待分类视频进行第一特征提取，得到所述待分类视频的全局时空特征，所述全局时空特征融合有所述待分类视频的空间特征及所述待分类视频的时间特征；
13.副特征提取模块，用于通过所述副特征提取网络，对所述待分类视频进行第二特征提取，得到所述待分类视频的局部时空特征，所述局部时空特征融合有所述待分类视频的时间特征、及所述待分类视频在至少两个空间维度的空间子特征；
14.特征融合模块，用于通过所述特征融合层，对所述全局时空特征以及所述局部时空特征进行特征融合，得到所述待分类视频的目标时空特征；
15.视频分类模块，用于通过所述视频分类层，基于所述目标时空特征对所述待分类视频进行视频分类，得到所述待分类视频所归属的视频类别。
16.在上述方案中，所述主特征提取网络包括主空间特征提取层、主时间特征提取层以及主特征融合层，所述主特征提取模块，还用于通过所述主空间特征提取层，对所述待分类视频进行空间特征提取，得到所述待分类视频的空间特征；通过所述主时间特征提取层，对所述待分类视频进行时间特征提取，得到所述待分类视频的时间特征；通过所述主特征融合层，对所述空间特征以及所述时间特征进行特征融合，得到所述待分类视频的全局时空特征。
17.在上述方案中，所述主特征提取网络包括主空间特征提取层、主时间特征提取层以及主特征融合层，所述主特征提取模块，还用于通过所述主空间特征提取层，对所述待分类视频进行空间特征提取，得到所述待分类视频的空间特征；通过所述主时间特征提取层，对所述空间特征进行时间特征提取，得到所述待分类视频的时间特征；其中，所述时间特征携带所述待分类视频的空间特征；通过所述主特征融合层，对携带所述空间特征的所述时间特征及所述空间特征进行特征融合，得到所述待分类视频的全局时空特征。
18.在上述方案中，所述主特征提取模块，还用于通过所述主空间特征提取层，对所述待分类视频进行至少两个空间维度的空间特征提取，得到所述待分类视频在至少两个空间维度的第一空间子特征；对所述待分类视频在至少两个空间维度的第一空间子特征进行特征融合，得到所述待分类视频的空间特征。
19.在上述方案中，所述主特征提取模块，还用于获取各所述第一空间子特征的第一权重；基于所述第一权重，对各所述第一空间子特征进行加权融合，得到所述待分类视频的空间特征。
20.在上述方案中，所述副特征提取网络包括副空间特征提取层、副时间特征提取层以及副特征融合层，所述副特征提取模块，还用于通过所述副空间特征提取层，对所述待分类视频进行所述至少两个空间维度的空间特征提取，得到所述待分类视频在各所述空间维度的第二空间子特征；通过所述副时间特征提取层，对所述待分类视频进行时间特征提取，得到所述待分类视频的时间特征；通过所述副特征融合层，将各所述第二空间子特征分别与所述时间特征进行特征融合，得到各所述第二空间子特征对应的时空融合特征，并对各所述第二空间子特征对应的时空融合特征进行融合，得到所述待分类视频的局部时空特征。
21.在上述方案中，所述副特征提取模块，还用于获取各所述第二空间子特征的第二权重；基于所述第二权重，对各所述第二空间子特征对应的时空融合特征进行加权融合，得
到所述待分类视频的局部时空特征。
22.在上述方案中，所述副特征提取网络包括副空间特征提取层、副时间特征提取层以及副特征融合层，所述至少两个空间维度包括通道维度，所述副特征提取模块，还用于通过所述副空间特征提取层，对所述待分类视频进行所述至少两个空间维度的空间特征提取，得到所述待分类视频在所述通道维度的通道特征、以及所述待分类视频在其它空间维度的第三空间子特征；通过所述副时间特征提取层，对所述待分类视频进行时间特征提取，得到所述待分类视频的时间特征；通过所述副特征融合层，将各所述第三空间子特征分别与所述时间特征进行特征融合，得到各所述第三空间子特征对应的时空融合特征，并对所述通道特征及各所述第三空间子特征对应的时空融合特征进行融合，得到所述待分类视频的局部时空特征。
23.在上述方案中，所述副特征提取模块，还用于对所述通道特征及各所述第三空间子特征对应的时空融合特征进行融合，得到中间时空特征；对所述中间时空特征及所述待分类视频在所述至少两个空间维度的空间子特征进行融合，得到所述待分类视频的局部时空特征。
24.在上述方案中，所述副特征提取模块，还用于获取所述通道特征的权重及各所述第三空间子特征的权重；基于所述通道特征的权重及各所述第三空间子特征的权重，对所述通道特征及各所述第三空间子特征对应的时空融合特征进行融合，得到所述待分类视频的局部时空特征。
25.在上述方案中，所述装置还包括训练模块，所述训练模块用于获取携带标签的视频训练样本；其中，所述标签用于指示所述视频训练样本所归属的视频类别；通过所述主特征提取网络，对所述视频训练样本进行第一特征提取，得到所述视频训练样本的全局时空特征，所述全局时空特征融合有所述视频训练样本的空间特征及所述视频训练样本的时间特征；通过所述副特征提取网络，对所述视频训练样本进行第二特征提取，得到所述视频训练样本的局部时空特征，所述局部时空特征融合有所述视频训练样本的时间特征、及所述视频训练样本在至少两个空间维度的空间子特征；通过所述特征融合层，对所述全局时空特征以及所述局部时空特征进行特征融合，得到所述视频训练样本的目标时空特征；通过所述视频分类层，基于所述目标时空特征对所述视频训练样本进行视频分类，得到所述视频训练样本所归属的视频类别；获取所述视频训练样本所归属的视频类别与所述标签的差异，并基于所述差异更新所述分类模型的模型参数。
26.在上述方案中，所述装置还包括光流特征提取模块，所述光流特征提取模块，用于通过所述光流特征提取层，对所述待分类视频进行第三特征提取，得到所述待分类视频的光流特征；所述特征融合模块，还用于通过所述特征融合层，对所述全局时空特征、所述局部时空特征以及所述光流特征进行特征融合，得到所述待分类视频的目标时空特征。
27.在上述方案中，所述主特征提取网络与所述副特征提取网络的数量均为至少两个、所述至少两个主特征提取网络串行排列形成级别递增的主特征提取网络序列、所述至少两个副特征提取网络串行排列形成级别递增的副特征提取网络序列、且所述主特征提取网络与所述副特征提取网络的数量相同；所述主特征提取模块，还用于通过所述主特征提取网络序列中的至少两个所述主特征提取网络，对待分类视频进行第一特征提取，得到所述待分类视频的全局时空特征；所述副特征提取模块，还用于通过所述副特征提取网络序
列中的至少两个所述副特征提取网络，对所述待分类视频进行第二特征提取，得到所述待分类视频的局部时空特征；其中，所述主特征提取网络序列中，后一级主特征提取网络的输入为前一级主特征提取网络及副特征提取网络的输出；所述副特征提取网络序列中，后一级副特征提取网络的输入为前一级副特征提取网络的输出。
28.本技术实施例还提供一种分类模型的训练方法，所述分类模型包括：主特征提取网络、副特征提取网络、特征融合层及视频分类层，所述方法包括：
29.通过所述主特征提取网络，对携带标签的视频训练样本进行第一特征提取，得到所述视频训练样本的全局时空特征，所述全局时空特征融合有所述视频训练样本的空间特征及所述视频训练样本的时间特征，所述标签用于指示所述视频训练样本所归属的视频类别；
30.通过所述副特征提取网络，对所述视频训练样本进行第二特征提取，得到所述视频训练样本的局部时空特征，所述局部时空特征融合有所述视频训练样本的时间特征、及所述待分类视频在至少两个空间维度的空间子特征；
31.通过所述特征融合层，对所述全局时空特征以及所述局部时空特征进行特征融合，得到所述视频训练样本的目标时空特征；
32.通过所述视频分类层，基于所述目标时空特征对所述视频训练样本进行视频分类，得到所述视频训练样本所归属的视频类别；
33.获取所述视频训练样本所归属的视频类别与所述标签的差异，并基于所述差异训练所述分类模型，以通过训练得到的分类模型，对待分类视频进行视频分类，得到所述待分类视频所归属的视频类别。
34.本技术实施例提供一种分类模型的训练装置，所述分类模型包括：主特征提取网络、副特征提取网络、特征融合层及视频分类层，所述装置包括：
35.主特征提取模块，用于对携带标签的视频训练样本进行第一特征提取，得到所述视频训练样本的全局时空特征，所述全局时空特征融合有所述视频训练样本的空间特征及所述视频训练样本的时间特征，所述标签用于指示所述视频训练样本所归属的视频类别；
36.副特征提取模块，用于通过所述副特征提取网络，对所述视频训练样本进行第二特征提取，得到所述视频训练样本的局部时空特征，所述局部时空特征融合有所述视频训练样本的时间特征、及所述待分类视频在至少两个空间维度的空间子特征；
37.特征融合模块，用于通过所述特征融合层，对所述全局时空特征以及所述局部时空特征进行特征融合，得到所述视频训练样本的目标时空特征；
38.视频分类模块，用于通过所述视频分类层，基于所述目标时空特征对所述视频训练样本进行视频分类，得到所述视频训练样本所归属的视频类别；
39.参数更新模块，用于获取所述视频训练样本所归属的视频类别与所述标签的差异，并基于所述差异训练所述分类模型，以通过训练得到的分类模型，对待分类视频进行视频分类，得到所述待分类视频所归属的视频类别。
40.本技术实施例提供一种电子设备，包括：
41.存储器，用于存储可执行指令；
42.处理器，用于执行所述存储器中存储的可执行指令时，实现本技术实施例提供的基于分类模型的视频分类方法。
43.本技术实施例提供一种电子设备，包括：
44.存储器，用于存储可执行指令；
45.处理器，用于执行所述存储器中存储的可执行指令时，实现本技术实施例提供的分类模型的训练方法。
46.本技术实施例提供一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行时，实现本技术实施例提供的基于分类模型的视频分类方法。
47.本技术实施例提供一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行时，实现本技术实施例提供的分类模型的训练方法。
48.本技术实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该电子设备执行本技术实施例提供的基于分类模型的视频分类方法。
49.本技术实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该电子设备执行本技术实施例提供的分类模型的训练方法。
50.本技术实施例具有以下有益技术效果：
51.在进行视频分类的过程中，通过双路特征提取网络的搭建，分别提取待分类视频的全局时空特征以及局部时空特征，从而将提取得到的全局时空特征以及局部时空特征进行特征融合，以得到待分类视频的目标时空特征，从而基于目标时空特征进行最终的视频分类。如此，能够更好的理解视频内容，提高了视频分类的精确度，从而完成不同场景下的视频分类任务。
附图说明
52.图1是本技术实施例提供的基于分类模型的视频分类系统100的架构示意图；
53.图2是本技术实施例提供的电子设备的结构示意图；
54.图3是本技术实施例提供的基于分类模型的视频分类方法的流程示意图；
55.图4是本技术实施例提供的分类模型的结构示意图；
56.图5是本技术实施例提供的基于主特征提取网络提取全局时空特征的流程示意图；
57.图6是本技术实施例提供的主特征提取网络的结构示意图；
58.图7是本技术实施例提供的基于主特征提取网络提取全局时空特征的流程示意图；
59.图8是本技术实施例提供的主特征提取网络的结构示意图；
60.图9是本技术实施例提供的确定待分类视频的空间特征的流程示意图；
61.图10是本技术实施例提供的主空间特征提取层的处理示意图；
62.图11是本技术实施例提供的基于副特征提取网络提取局部时空特征的流程示意图；
63.图12是本技术实施例提供的副特征提取网络的结构示意图；
64.图13是本技术实施例提供的副特征融合层的处理示意图；
65.图14是本技术实施例提供的确定待分类视频的局部时空特征的流程示意图；
66.图15是本技术实施例提供的副特征融合层的处理示意图；
67.图16是本技术实施例提供的确定待分类视频的局部时空特征的示意图；
68.图17是本技术实施例提供的分类模型的结构示意图；
69.图18是本技术实施例提供的分类模型的结构示意图；
70.图19是本技术实施例提供的主特征提取网络的结构示意图；
71.图20是本技术实施例提供的主特征提取网络的结构示意图；
72.图21是本技术实施例提供的副特征提取网络的结构示意图；
73.图22是本技术实施例提供的确定待分类视频的局部时空特征的示意图；
74.图23是本技术实施例提供的一个分类模型的训练方法的流程示意图；
75.图24是本技术实施例提供的分类模型的训练装置2400的结构示意图。
具体实施方式
76.为了使本技术的目的、技术方案和优点更加清楚，下面将结合附图对本技术作进一步地详细描述，所描述的实施例不应视为对本技术的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本技术保护的范围。
77.在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。
78.在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本技术实施例能够以除了在这里图示或描述的以外的顺序实施。在以下的描述中，所涉及的术语“多个”是指至少两个。
79.除非另有定义，本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本技术实施例的目的，不是旨在限制本技术。
80.对本技术实施例进行进一步详细说明之前，对本技术实施例中涉及的名词和术语进行说明，本技术实施例中涉及的名词和术语适用于如下的解释。
81.1)多层感知器(multilayer perceptron，mlp)：是一种前向结构的人工神经网络，映射一组输入向量到一组输出向量。mlp可以被看作是一个有向图，由多个的节点层所组成，每一层都全连接到下一层。除了输入节点，每个节点都是一个带有非线性激活函数的神经元(或称处理单元)。
82.2)卷积神经网络(convolutional neural network，cnn)：一种前馈神经网络，一般由一个或者多个卷积层(采用卷积数学运算的网络层)和末端的全连接层组成，其网络内部的神经元可以响应输入图像的部分区域，一般在视觉图像处理领域有着较为出色的表现。
83.3)transformer：一种编码器，用于深度自注意力变换网络，该网络提取的特征具有比较好的空间专注度性质，同时该网络能够有效地解决长依赖关系的建模。
84.4)全局平均池化(global average pool，gap)：以feature map为单位进行均值化。
85.5)交叉熵损失函数(cross entropy loss，cel)：在机器学习领域的分类问题中，交叉熵损失函数可以用来表达预测不准确之程度。
86.申请人发现，从模型的角度来说，相关技术在视频分类与视频流理解的实现上主要分为三大类：
87.第一类是基于卷积神经网络的视频分类器。该类模型主要利用卷积神经网络进行深度学习神经网络的搭建。卷积神经网络能够很好地捕捉视频流的局部时空特征，因此被广泛运用于图像/视频的分类任务。在此类视频分类器中，又存在两个子类分支。第一子类分支是基于2d卷积神经网络的方案，该类技术方案主要利用2d的卷积神经网络分别在空间(h-w-c)维度以及时间(t)维度依次进行针对性地建模，以此依次分别捕捉视频流的空间特征以及时间特征。该类技术方案的运行计算速度较快，但由于时间和空间特征是分别捕捉，因此存在时空特征提取不充分的现象。第二子类是基于3d卷积神经网络的方案，该类技术方案简单直接的利用3d卷积神经网络在视频流信息的时空维度上统一做特征提取，因此能够提取到较高质量的高维特征，最终的分类效果相较于2d卷积神经网络的方案也较好。美中不足的是，该类方案的计算量较大，因此模型的推理速度也较慢。
88.第二类是基于transformer架构的视频分类器。该类模型主要利用transfor mer的结构进行深度神经网络的搭建。transformer结构起源于nlp，用以捕捉全局的信息依赖关系。相比较于卷积神经网络，transformer由于自身的特性，能够很好地捕捉帧与帧之间的长依赖关系，而这种全局关系的建模恰好能够很好地辅助网络进行视频流的分类任务。因此相关技术中越来越多地利用transf ormer的架构来解决视频理解任务中的难题。但由于transformer框架计算复杂度较高，因此也一定程度上限制了此类框架在工业场景乃至商业场景的实际利用。
89.第三类是基于多层感知器框架(mlp)的特征提取器。基于多层感知器框架(mlp)的特征提取器既继承了transformer架构捕捉全局信息依赖关系的特点，又继承了卷积神经网络框架推理速度较快的优点，因此理论而言能够很好地解决视频内容理解的相关任务。但是相关mlp框架方案仅局限于解决图像的空间特征提取，不能够很好地解决视频分类的相关任务。
90.基于此，本技术提供一种基于分类模型的视频分类方法、装置、电子设备、计算机可读存储介质及计算机程序产品，以实现视频流理解与视频分类在工业化以及商业化应用上的高精度需求。
91.参见图1，图1是本技术实施例提供的基于分类模型的视频分类系统100的架构示意图，为实现基于分类模型的视频分类的应用场景(例如，基于分类模型的视频分类的应用场景可以是视频app在进行视频推荐的应用场景，比如用户在进入视频app时，在首页上基于经过用户授权许可而获取的用户历史数据，对相应类别的视频进行推荐；又比如用户在观看完一个视频后，可以在视频结束时在结束页面基于该视频的类别对相应视频进行推荐)，终端(示例性示出了终端400)通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合。
92.终端400用于供用户使用客户端401，在显示界面401-1显示。终端400和服务器200
通过有线或者无线网络相互连接。
93.服务器200用于，通过分类模型的主特征提取网络，对待分类视频进行第一特征提取，得到融合有待分类视频的空间特征及待分类视频的时间特征的全局时空特征；然后，通过副特征提取网络，对待分类视频进行第二特征提取，得到融合有待分类视频的时间特征、及待分类视频在至少两个空间维度的空间子特征的局部时空特征；接着，通过特征融合层，对全局时空特征以及局部时空特征进行特征融合，得到待分类视频的目标时空特征；最后，通过视频分类层，基于目标时空特征对待分类视频进行视频分类，得到待分类视频所归属的视频类别；并将待分类视频所归属的视频类别发送至终端400。
94.终端400用于，接收从服务器200获取的待分类视频所归属的视频类别，从而在显示界面401-1中基于视频类别进行相应视频的推荐。
95.一些实施例中，服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(cdn，content deliver network)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端400可以是智能手机、平板电脑、笔记本电脑、台式计算机、机顶盒、智能语音交互设备、智能家电、车载终端、飞行器、以及移动设备(例如，移动电话，便携式音乐播放器，个人数字助理，专用消息设备，便携式游戏设备，智能音箱及智能手表)等，但并不局限于此。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本技术实施例中不做限制。
96.参见图2，图2是本技术实施例提供的电子设备的结构示意图，在实际应用中，电子设备可以为图1示出的服务器200或终端400，参见图2，图2所示的电子设备包括：至少一个处理器410、存储器450、至少一个网络接口420和用户接口430。终端400中的各个组件通过总线系统440耦合在一起。可理解，总线系统440用于实现这些组件之间的连接通信。总线系统440除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统440。
97.处理器410可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(dsp，digital signal processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。
98.用户接口430包括使得能够呈现媒体内容的一个或多个输出装置431，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口430还包括一个或多个输入装置432，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。
99.存储器450可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器450可选地包括在物理位置上远离处理器410的一个或多个存储设备。
100.存储器450包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(rom，read only me mory)，易失性存储器可以是随机存取存储器(ram，random access memor y)。本技术实施例描述的存储器450旨在包括任意适合类型的存储器。
101.在一些实施例中，存储器450能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。
102.操作系统451，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；
103.网络通信模块452，用于经由一个或多个(有线或无线)网络接口420到达其他计算设备，示例性的网络接口420包括：蓝牙、无线相容性认证(wifi)、和通用串行总线(usb，universal serial bus)等；
104.呈现模块453，用于经由一个或多个与用户接口430相关联的输出装置431(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作外围设备和显示内容和信息的用户接口)；
105.输入处理模块454，用于对一个或多个来自一个或多个输入装置432之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
106.在一些实施例中，本技术实施例提供的基于分类模型的视频分类装置可以采用软件方式实现，图2示出了存储在存储器450中的基于分类模型的视频分类装置455，其可以是程序和插件等形式的软件，包括以下软件模块：主特征提取模块4551、副特征提取模块4552、特征融合模块4553以及视频分类模块4554，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。
107.在另一些实施例中，本技术实施例提供的基于分类模型的视频分类装置可以采用硬件方式实现，作为示例，本技术实施例提供的基于分类模型的视频分类装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本技术实施例提供的基于分类模型的视频分类方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(asic，application specific integrate d circuit)、dsp、可编程逻辑器件(pld，programmable logic device)、复杂可编程逻辑器件(cpld，complex programmable logic device)、现场可编程门阵列(fpga，field-programmable gate array)或其他电子元件。
108.在一些实施例中，终端或服务器可以通过运行计算机程序来实现本技术实施例提供的基于分类模型的视频分类方法。举例来说，计算机程序可以是操作系统中的原生程序或软件模块；可以是本地(native)应用程序(app，applic ation)，即需要在操作系统中安装才能运行的程序，如即时通信app、网页浏览器app；也可以是小程序，即只需要下载到浏览器环境中就可以运行的程序；还可以是能够嵌入至任意app中的小程序。总而言之，上述计算机程序可以是任意形式的应用程序、模块或插件。
109.基于上述对本技术实施例提供的基于分类模型的视频分类系统及电子设备的说明，下面说明本技术实施例提供的基于分类模型的视频分类方法。在实际实施时，本技术实施例提供的基于分类模型的视频分类方法可以由终端或服务器单独实现，或者由终端及服务器协同实现，以由图1中的服务器200单独执行本技术实施例提供的基于分类模型的视频分类方法为例进行说明。参见图3，图3是本技术实施例提供的基于分类模型的视频分类方法的流程示意图，需要说明的是，分类模型包括：主特征提取网络、副特征提取网络、特征融合层及视频分类层，参见图4，图4是本技术实施例提供的分类模型的结构示意图，结合图3和图4对示出的步骤进行说明。
110.步骤101，通过主特征提取网络，对待分类视频进行第一特征提取，得到待分类视
频的全局时空特征，全局时空特征融合有待分类视频的空间特征及待分类视频的时间特征。
111.在实际实施时，待分类视频可以是预先存储于终端本地的，也可以是终端从外界(如互联网)中获取到的，还可以是终端实时采集的，例如通过终端的摄像头实时采集到的。
112.在实际实施时，在获取待分类视频后，首先对待分类视频进行抽帧采样的数据预处理，得到预处理后的待分类视频，然后基于与处理后的待分类视频进行后续的视频分类处理。这里，首先基于主特征提取网络对预处理后的待分类视频的全局时空特征进行提取，需要说明的是，这里存在两种基于主特征提取网络提取全局时空特征的方式，接下来，对这两种方式进行说明。
113.在一些实施例中，参见图5，图5是本技术实施例提供的基于主特征提取网络提取全局时空特征的流程示意图，这里，主特征提取网络包括主空间特征提取层、主时间特征提取层以及主特征融合层，参见图6，图6是本技术实施例提供的主特征提取网络的结构示意图，基于图5和图6，步骤101可以通过如下方式实现：
114.步骤1011a，通过主空间特征提取层，对待分类视频进行空间特征提取，得到待分类视频的空间特征。
115.步骤1012a，通过主时间特征提取层，对待分类视频进行时间特征提取，得到待分类视频的时间特征。
116.在实际实施时，这里采用并行处理的方式，分别通过主空间特征提取层与主时间特征提取层对待分类视频进行特征提取，得到待分类视频的空间特征以及时间特征。
117.步骤1013a，通过主特征融合层，对空间特征以及时间特征进行特征融合，得到待分类视频的全局时空特征。
118.在实际实施时，在确定待分类视频的空间特征与时间特征后，通过对空间特征以及时间特征进行特征融合，得到待分类视频的全局时空特征。
119.在一些实施例中，参见图7，图7是本技术实施例提供的基于主特征提取网络提取全局时空特征的流程示意图，这里，主特征提取网络包括主空间特征提取层、主时间特征提取层以及主特征融合层，参见图8，图8是本技术实施例提供的主特征提取网络的结构示意图，基于图7和图8，步骤101可以通过如下方式实现：
120.步骤1011b，通过主空间特征提取层，对待分类视频进行空间特征提取，得到待分类视频的空间特征。
121.步骤1012b，通过主时间特征提取层，对空间特征进行时间特征提取，得到待分类视频的时间特征；其中，时间特征携带待分类视频的空间特征。
122.在实际实施时，这里采用串行处理的方式，在得到待分类视频的空间特征后，通过主时间特征提取层对空间特征进行时间特征提取，得到携带待分类视频空间特征的时间特征。
123.步骤1013b，通过主特征融合层，对携带空间特征的时间特征及空间特征进行特征融合，得到待分类视频的全局时空特征。
124.在实际实施时，在得到携带待分类视频空间特征的时间特征后，通过主特征融合层，对得到的时间特征及空间特征进行特征融合，得到待分类视频的全局时空特征。
125.需要说明的是，这里对于主时间特征提取层以及主特征融合层而言，输入特征均
为上一层级的输出以及上一层级的输入，具体而言，对于主时间特征提取层，输入特征为待分类视频的空间特征以及待分类视频，而对于主特征融合层，输入特征为携带空间特征的时间特征以及待分类视频的空间特征。如此，避免了在特征处理过程中特征的丢失，可以捕捉更充分的空间语义信息，从而提高视频理解的准确性。
126.在一些实施例中，参见图9和图10，图9是本技术实施例提供的确定待分类视频的空间特征的流程示意图，图10是本技术实施例提供的主空间特征提取层的处理示意图，基于图9和图10，步骤1011a以及步骤1011b还可以通过如下方式实现：
127.步骤10111，通过主空间特征提取层，对待分类视频进行至少两个空间维度的空间特征提取，得到待分类视频在至少两个空间维度的第一空间子特征。
128.在实际实施时，这里的空间维度至少包括视频帧图像的高度(h)维度、宽度(w)维度以及通道维度(c)等，通过主空间特征提取层对待分类视频进行至少两个空间维度的空间特征提取，得到待分类视频在高度特征，宽度特征以及通道特征中至少两个第一空间子特征。
129.步骤10112，对待分类视频在至少两个空间维度的第一空间子特征进行特征融合，得到待分类视频的空间特征。
130.在实际实施时，在得到待分类视频在至少两个空间维度的第一空间子特征后，获取各第一空间子特征的第一权重，然后基于第一权重，对各第一空间子特征进行加权融合，得到待分类视频的空间特征。需要说明的是，这里的第一权重为依据各空间维度而预先设置的。
131.步骤102，通过副特征提取网络，对待分类视频进行第二特征提取，得到待分类视频的局部时空特征，局部时空特征融合有待分类视频的时间特征、及待分类视频在至少两个空间维度的空间子特征。
132.需要说明的是，这里的副特征提取网络与主特征提取网络是并行处理方式，因此，在获取待分类视频后，在主特征提取网络对待分类视频进行特征提取，得到待分类视频的全局时空特征的同时，副特征提取网络也同样对待分类视频进行特征提取，从而得到待分类视频的局部时空特征。
133.在一些实施例中，参见图11，图11是本技术实施例提供的基于副特征提取网络提取局部时空特征的流程示意图，这里，副特征提取网络包括副空间特征提取层、副时间特征提取层以及副特征融合层，参见图12，图12是本技术实施例提供的副特征提取网络的结构示意图，基于图11和图12，步骤102可以通过如下方式实现：
134.步骤1021a，通过副空间特征提取层，对待分类视频进行至少两个空间维度的空间特征提取，得到待分类视频在各空间维度的第二空间子特征。
135.在实际实施时，这里，空间维度至少包括视频帧图像的高度维度、宽度维度以及通道维度等，通过副空间特征提取层，对待分类视频进行至少两个空间维度的空间特征提取，得到待分类视频的高度特征、宽度特征以及通道特征。
136.步骤1022a，通过副时间特征提取层，对待分类视频进行时间特征提取，得到待分类视频的时间特征。
137.步骤1023a，通过副特征融合层，将各第二空间子特征分别与时间特征进行特征融合，得到各第二空间子特征对应的时空融合特征，并对各第二空间子特征对应的时空融合
特征进行融合，得到待分类视频的局部时空特征。
138.参见图13，图13是本技术实施例提供的副特征融合层的处理示意图，基于图13，在得到待分类视频在各空间维度的第二空间子特征、以及待分类视频的时间特征后，通过副特征融合层，将各第二空间子特征分别与时间特征进行特征融合，得到各第二空间子特征对应的时空融合特征，然后再对得到的各时空融合特征进行融合，得到待分类视频的局部时空特征。
139.作为示例，当各空间维度为待分类视频的高度维度、宽度维度以及通道维度时，通过副特征融合层，将视频的高度特征、宽度特征以及通道特征分别与视频的时间特征进行融合，得到各第二空间子特征对应的时空融合特征，即高度-时间特征、宽度-时间特征以及通道-时间特征；最后对视频的高度-时间特征、宽度-时间特征以及通道-时间特征进行融合，得到待分类视频的局部时空特征。
140.需要说明的是，对各第二空间子特征对应的时空融合特征进行融合，得到待分类视频的局部时空特征的过程具体包括，获取各第二空间子特征的第二权重；基于第二权重，对各第二空间子特征对应的时空融合特征进行加权融合，得到待分类视频的局部时空特征。这里的第二权重为依据各空间维度而预先设置的。
141.在一些实施例中，步骤102中的至少两个空间维度包括通道维度，参见图14，图14是本技术实施例提供的确定待分类视频的局部时空特征的流程示意图，基于图14和图12，步骤102可以通过如下方式实现：
142.步骤1021b，通过副空间特征提取层，对待分类视频进行至少两个空间维度的空间特征提取，得到待分类视频在通道维度的通道特征、以及待分类视频在其它空间维度的第三空间子特征。
143.在实际实施时，这里的其它空间维度至少包括待分类视频的高度维度以及宽度维度，通过副空间特征提取层，对待分类视频进行至少两个空间维度的空间特征提取，得到待分类视频在通道维度的通道特征、以及待分类视频在其它空间维度的第三空间子特征具体包括，通过副空间特征提取层，对待分类视频进行至少两个空间维度的空间特征提取，得到待分类视频在通道维度的通道特征、待分类视频在高度维度的高度特征以及待分类视频在宽度维度的宽度特征。
144.步骤1022b，通过副时间特征提取层，对待分类视频进行时间特征提取，得到待分类视频的时间特征。
145.步骤1023b，通过副特征融合层，将各第三空间子特征分别与时间特征进行特征融合，得到各第三空间子特征对应的时空融合特征，并对通道特征及各第三空间子特征对应的时空融合特征进行融合，得到待分类视频的局部时空特征。
146.参见图15，图15是本技术实施例提供的副特征融合层的处理示意图，基于图15，在得到待分类视频在除通道维度之外的其它维度的第三空间子特征后，将各第三空间子特征分别与时间特征进行特征融合，得到各第三空间子特征对应的时空融合特征，然后将对通道特征及各第三空间子特征对应的时空融合特征进行融合，得到待分类视频的局部时空特征。
147.作为示例，这里当其它空间维度为高度维度和宽度维度时，各第三空间子特征对应的时空融合特征为高度-时间特征以及宽度-时间特征，然后对高度-时间特征、宽度-时
间特征以及通道特征进行融合，得到待分类视频的局部时空特征。
148.在一些实施例中，在得到待分类视频的通道特征及各第三空间子特征对应的时空融合特征后，还可以对通道特征以及各第三空间子特征对应的时空融合特征进行融合，得到中间时空特征，然后基于中间时空特征，确定待分类视频的局部时空特征。参见图16，图16是本技术实施例提供的确定待分类视频的局部时空特征的示意图，基于图16，在得到待分类视频的通道特征及各第三空间子特征对应的时空融合特征后，对通道特征以及各第三空间子特征对应的时空融合特征进行融合，得到中间时空特征；然后，对中间时空特征及待分类视频在至少两个空间维度的空间子特征进行融合，得到待分类视频的局部时空特征。
149.需要说明的是，这里的待分类视频在至少两个空间维度的空间子特征为副空间特征提取层提取的空间子特征，这里的空间维度至少包括长度维度、宽度维度以及通道维度，而空间子特征至少包括长度特征、宽度特征以及通道特征，如此，在进行特征融合时，还融入了进行特征处理前的空间子特征，避免了在特征处理过程中特征的丢失，可以捕捉更充分的空间语义信息，从而提高视频理解的准确性。
150.需要说明的是，对中间时空特征及待分类视频在至少两个空间维度的空间子特征进行融合，得到待分类视频的局部时空特征的过程具体包括，获取通道特征的权重及各第三空间子特征的权重；基于通道特征的权重及各第三空间子特征的权重，对通道特征及各第三空间子特征对应的时空融合特征进行融合，得到待分类视频的局部时空特征。这里的第三权重为依据各空间维度而预先设置的。
151.在实际实施时，当空间维度包括通道维度时，通过预先设定通道数量(如56、128、256等)，使得越深处的网络输出特征的分辨率越小，通道数越大，而越浅层的网络输出特征的分辨率越高，通道数越小。这样，在浅层网络处，可以更好地捕捉高细粒度的空间特征，而在深层网络处可以捕捉更充分的空间语义信息，如此，能够更充分地提取时空特征。需要说明的是，这里预先设定的通道数量与特征数量(即视频中的帧图像的数量)相同。
152.步骤103，通过特征融合层，对全局时空特征以及局部时空特征进行特征融合，得到待分类视频的目标时空特征。
153.在实际实施时，在确定局部时空特征后，对局部时空特征进行标准化处理，得到标准化局部时空特征；然后通过特征融合层，对全局时空特征以及标准化局部时空特征进行特征融合，得到待分类视频的目标时空特征。如此，对局部时空特征进行便准化操作，从而将标准化后的局部时空特征与全局时空特征进行融合，以有效地将局部时空特征融合入全局时空特征中。
154.在一些实施例中，当主特征提取网络与副特征提取网络的数量均为至少两个时，参见图17，图17是本技术实施例提供的分类模型的结构示意图，基于图17，至少两个主特征提取网络串行排列形成级别递增的主特征提取网络序列、至少两个副特征提取网络串行排列形成级别递增的副特征提取网络序列、且主特征提取网络与副特征提取网络的数量相同，然后通过主特征提取网络序列中的至少两个主特征提取网络，对待分类视频进行第一特征提取，得到待分类视频的全局时空特征，再通过副特征提取网络序列中的至少两个副特征提取网络，对待分类视频进行第二特征提取，得到待分类视频的局部时空特征，最后通过特征融合层，对全局时空特征以及局部时空特征进行特征融合，得到待分类视频的目标时空特征。
155.需要说明的是，主特征提取网络序列中，后一级主特征提取网络的输入为前一级主特征提取网络及副特征提取网络的输出；而副特征提取网络序列中，后一级副特征提取网络的输入为前一级副特征提取网络的输出。如此，通过逐层级的特征融合，从而有效地将局部时空特征融合入全局时空特征中，捕捉更充分的空间语义信息。
156.在一些实施例中，参见图18，图18是本技术实施例提供的分类模型的结构示意图，基于图18，分类模型还包括光流特征提取层，得到待分类视频的目标时空特征的过程具体包括，首先通过分类模型的主特征提取网络，对待分类视频进行第一特征提取，得到融合有待分类视频的空间特征及待分类视频的时间特征的全局时空特征；然后，通过副特征提取网络，对待分类视频进行第二特征提取，得到融合有待分类视频的时间特征、及待分类视频在至少两个空间维度的空间子特征的局部时空特征；再通过光流特征提取层，对待分类视频进行第三特征提取，得到待分类视频的光流特征；最后通过特征融合层，对全局时空特征、局部时空特征以及光流特征进行特征融合，得到待分类视频的目标时空特征。
157.在实际实施时，分类模型包括的光流特征提取层还可以位于主特征提取网络或者副特征提取网络中，接下来，对光流特征提取层位于主特征提取网络以及位于副特征提取网络中的情况进行说明。
158.在一些实施例中，当光流提取层位于主特征提取网络中时，主特征提取网络包括主空间特征提取层、主时间特征提取层、主光流程特征提取层以及主特征融合层，参见图19，图19是本技术实施例提供的主特征提取网络的结构示意图，基于图19，首先通过主空间特征提取层，对待分类视频进行空间特征提取，得到待分类视频的空间特征；然后通过主时间特征提取层，对待分类视频进行时间特征提取，得到待分类视频的时间特征；接着通过主光流特征提取层，对待分类视频进行光流特征提取，得到待分类视频的光流特征；最后通过主特征融合层，对空间特征、时间特征以及光流特征进行特征融合，得到待分类视频的全局时空特征。这样，将得到的全局时空特征与副特征提取网络得到的局部时空特征，通过特征融合层进行融合，得到目标时空特征。
159.需要说明的是，这里的采用并行处理方式来确定的全局时空特征，而对于采用串行处理方式得到全局时空特征的过程，参见图20，图20是本技术实施例提供的主特征提取网络的结构示意图，基于图20，首先通过主空间特征提取层，对待分类视频进行空间特征提取，得到待分类视频的空间特征；然后通过主时间特征提取层，对空间特征进行时间特征提取，得到携带待分类视频的空间特征的待分类视频的时间特征；接着通过主光流特征提取层，对时间特征进行提取，得到携带待分类视频的时间特征的待分类视频的光流特征；最后通过主特征融合层，对空间特征、携带空间特征的时间特征及携带时间特征的光流特征进行特征融合，得到待分类视频的全局时空特征。这样，将得到的全局时空特征与副特征提取网络得到的局部时空特征，通过特征融合层进行融合，得到目标时空特征。
160.需要说明的是，这里对于主时间特征提取层、主光流特征提取层以及主特征融合层而言，输入特征均为上一层级的输出以及上一层级的输入，具体而言，对于主时间特征提取层，输入特征为待分类视频的空间特征以及待分类视频，而对于主光流特征提取层，输入特征为待分类视频的空间特征以及待分类视频的时间特征，而对于主特征融合层，输入特征为携带空间特征的时间特征以及待分类视频的光流特征。如此，避免了在特征处理过程中特征的丢失，可以捕捉更充分的空间语义信息，从而提高视频理解的准确性。
161.在另一些实施例中，当光流提取层位于副特征提取网络中时，副特征提取网络包括副空间特征提取层、副时间特征提取层、副光流程特征提取层以及副特征融合层，参见图21，图21是本技术实施例提供的副特征提取网络的结构示意图，基于图21，首先通过副空间特征提取层，对待分类视频进行至少两个空间维度的空间特征提取，得到待分类视频在各空间维度的第二空间子特征；然后通过副时间特征提取层，对待分类视频进行时间特征提取，得到待分类视频的时间特征；接着通过副光流特征提取层，对待分类视频进行光流特征提取，得到待分类视频的光流特征；最后通过副特征融合层，将第二空间子特征、时间特征以及光流特征进行融合，得到待分类视频的局部时空特征。这样，将得到的局部时空特征与主特征提取网络得到的全局时空特征，通过特征融合层进行融合，得到目标时空特征。
162.在实际实施时，对于通过副特征融合层，将第二空间子特征、时间特征以及光流特征进行融合，得到待分类视频的局部时空特征的过程，参见图22，图22是本技术实施例提供的确定待分类视频的局部时空特征的示意图，基于图22，在得到各空间维度的第二空间子特征，待分类视频的时间特征以及待分类视频的光流特征后，将各第二空间子特征分别与时间特征以及光流特征进行特征融合，得到各第二空间子特征对应的时空融合特征，并对各第二空间子特征对应的时空融合特征进行融合，得到待分类视频的局部时空特征。这样，将得到的局部时空特征与主特征提取网络得到的全局时空特征，通过特征融合层进行融合，得到目标时空特征。
163.需要说明的是，光流特征提取层还可以同时位于主特征提取网络和副特征提取网络中，对于光流特征提取层同时位于主特征提取网络和副特征提取网络时，依据过上述实施例中光流特征提取层分别位于主特征提取网络和副特征提取网络中确定全局时空特征与局部时空特征的过程，在得到待分类视频的全局时空特征与局部时空特征后，通过待分类视频的全局时空特征与局部时空特征，确定待分类视频的目标时空特征。
164.步骤104，通过视频分类层，基于目标时空特征对待分类视频进行视频分类，得到待分类视频所归属的视频类别。
165.在实际实施时，在得到目标时空特征后，通过视频分类层，对目标时空特征进行降维处理，得到待分类视频的目标特征，然后基于目标特征，对待分类视频进行视频分类，得到待分类视频所归属的视频类别，从而依据视频类别进行相应视频的推荐，示例性地，可以在用户在进入视频应用时，在首页上基于用户的历史数据对相应类别的视频进行推荐；又比如用户在观看完一个视频后，可以在视频结束时在结束页面，基于该视频的类别对相应视频进行推荐。这里，用户的历史数据为在用户进入视频应用时，经过用户授权许可而得到的。
166.需要说明的是，这里的降维处理可以是通过对目标时空特征进行全局平均池化的处理，从而将多维的目标时空特征转换为一维的目标特征，需要说明的是，该目标特征很好地包含了待分类视频的全局时空特征和局部时空特征，因此能够很好地利用该特征进行很有效的进行视频内容的分类。
167.在一些实施例中，在基于分类模型进行视频分类之前，首先对分类模型进行训练，参见图23，图23是本技术实施例提供的一个分类模型的训练方法的流程示意图，将结合图23示出的步骤进行说明。
168.步骤201，服务器获取携带标签的视频训练样本；其中，标签用于指示视频训练样
本所归属的视频类别。
169.步骤202，通过主特征提取网络，对视频训练样本进行第一特征提取，得到视频训练样本的全局时空特征，全局时空特征融合有视频训练样本的空间特征及视频训练样本的时间特征。
170.步骤203，通过副特征提取网络，对视频训练样本进行第二特征提取，得到视频训练样本的局部时空特征，局部时空特征融合有视频训练样本的时间特征、及视频训练样本在至少两个空间维度的空间子特征。
171.步骤204，通过特征融合层，对全局时空特征以及局部时空特征进行特征融合，得到视频训练样本的目标时空特征。
172.步骤205，通过视频分类层，基于目标时空特征对视频训练样本进行视频分类，得到视频训练样本所归属的视频类别。
173.步骤206，获取视频训练样本所归属的视频类别与标签的差异，并基于差异更新分类模型的模型参数。
174.在实际实施时，首先获取分类模型对应的损失函数如交叉熵函数等，然后基于视频训练样本所归属的视频类别与标签的差异确定损失函数的值，从而基于损失函数的值更新分类模型的模型参数。
175.应用本技术上述实施例，在进行视频分类的过程中，通过双路特征提取网络的搭建，分别提取待分类视频的全局时空特征以及局部时空特征，从而将提取得到的全局时空特征以及局部时空特征进行特征融合，以得到待分类视频的目标时空特征，从而基于目标时空特征进行最终的视频分类。如此，能够更好的理解视频内容，提高了视频分类的精确度，从而完成不同场景下的视频分类任务。
176.下面，将说明本技术实施例在一个实际的应用场景中的示例性应用。
177.近年来由于短视频行业的快速发展，越来越多地自媒体选择通过视频的内容渠道进行相关的个人创作。因此视频内容理解的技术完美符合当前的多媒体市场趋势。一方面，在创作平台方面，视频内容理解可以让创作平台更好地把视频流内容的统计，从而更好地对平台用户进行内容的推荐，以此提升平台用户的使用体验；另一方面，对于平台用户而言，视频流理解技术可以节省平台用户大量的视频检索时间，具体而言，平台用户可以通过输入关键词便能在最短时间内得到与关键词关联度最大的视频。从模型的角度来说，相关技术在视频分类与视频流理解的实现上主要分为三大类：
178.第一类是基于卷积神经网络的视频分类器。该类模型主要利用卷积神经网络进行深度学习神经网络的搭建。卷积神经网络能够很好地捕捉视频流的局部时空特征，因此被广泛运用于图像/视频的分类任务。在此类视频分类器中，又存在两个子类分支。第一子类分支是基于2d卷积神经网络的方案，该类技术方案主要利用2d的卷积神经网络分别在空间(h-w-c)维度以及时间(t)维度依次进行针对性地建模，以此依次分别捕捉视频流的空间特征以及时间特征。该类技术方案的运行计算速度较快，但由于时间和空间特征是分别捕捉，因此存在时空特征提取不充分的现象。第二子类是基于3d卷积神经网络的方案，该类技术方案简单直接的利用3d卷积神经网络在视频流信息的时空维度上统一做特征提取，因此能够提取到较高质量的高维特征，最终的分类效果相较于2d卷积神经网络的方案也较好。美中不足的是，该类方案的计算量较大，因此模型的推理速度也较慢。
179.第二类是基于transformer架构的视频分类器。该类模型主要利用transfor mer的结构进行深度神经网络的搭建。transformer结构起源于nlp，用以捕捉全局的信息依赖关系。相比较于卷积神经网络，transformer由于自身的特性，能够很好地捕捉帧与帧之间的长依赖关系，而这种全局关系的建模恰好能够很好地辅助网络进行视频流的分类任务。因此相关技术中越来越多地利用transf ormer的架构来解决视频理解任务中的难题。但由于transformer框架计算复杂度较高，因此也一定程度上限制了此类框架在工业场景乃至商业场景的实际利用。
180.第三类是基于多层感知器框架(mlp)的特征提取器。基于多层感知器框架(mlp)的特征提取器既继承了transformer架构捕捉全局信息依赖关系的特点，又继承了卷积神经网络框架推理速度较快的优点，因此理论而言能够很好地解决视频内容理解的相关任务。但是相关mlp框架方案仅局限于解决图像的空间特征提取，不能够很好地解决视频分类的相关任务。
181.基于此，本技术提供一种基于分类模型的视频分类方法、装置、电子设备、计算机可读存储介质及计算机程序产品，以实现视频流理解与视频分类在工业化以及商业化应用上的高精度需求。具体而言，参见图17，本技术实施例首先通过对输入视频流经过抽帧采样的数据预处理，然后将预处理后的数据同时输入主网络(主网络特征提取层)与副网络(副网络特征提取层)，通过逐层级的特征融合，最终主网络输出一个一维特征向量；该特征向量很好地包含了视频流的全局时空特征和局部时空特征，因此能够很好地利用该特征向量进行视频内容的分类。这里，上述处理过程主要通过四个模块来实现，即主网络模块、副网络模块、特征融合模块以及视频分类模块。
182.对于主网络模块，本技术实施例中主网络模块(主网络特征提取层)主要负责捕捉输入视频流的全局空间与时间特征，其中空间特征是由视频空间感知模块来提取，而时间特征主要是由视频时间感知模块来提取，具体地，本技术设计的空间感知模块分别在视频帧图像的高度(h)维度、宽度(w)维度以及通道维度(c)进行线性全连接层的建模，得到3个不同维度的建模特征，后续将该三个维度的特征进行加权融合以输出最终的空间特征；而在时间特征的捕捉上，本技术主要针对输入视频流的时间维度进行全连接层的建模，即通过单独的多层感知机(mlp)模块，在输入视频流的时间维度上进行单独的线性映射。
183.在实际实施时，本技术实施例提供的主网络(主特征提取网络)可以参见图8，视频空间感知模块(主空间特征提取层)以及视频时间感知模块(主时间特征提取层)在主网络结构中呈串行链接，输入视频流信息首先经过视频空间感知模块，继而输入视频时间感知模块。主网络的架构设计上，采取金字塔的多层级(pyramid architectures)结构，使得越深处的网络输出特征的分辨率越小，通道数越大，而越浅层的网络输出特征的分辨率越高，通道数越小。该设计能够更好地帮助网络充分地提取时空特征。具体而言，这样的设计在浅层网络处，可以更好地捕捉高细粒度的空间特征，而在深层网络处可以捕捉更充分的空间语义信息。
184.对于副网络模块，本技术实施例中副网络模块(副网络特征提取层)主要负责捕捉输入视频流在不同空间维度上的时间变化特征。具体实现上，本技术首先将输入特征(即视频流在各维度的空间特征，如高度特征、宽度特征、通道特征以及视频流的时间特征)分别作三次变换，参见图16，具体地首先将视频流的高度维度(h)和时间维度(t)做融合，整合出
新的混合维度(h-t)，并在此维度上进行全连接层的建模，得到视频流的高度-时间特征；然后将视频流的宽度维度(w)和时间维度(t)做融合，整合出新的混合维度(w-t)，并在此维度上进行全连接层的建模，得到视频流的宽度-时间特征；最后对视频的通道维度进行全连接层的建模，得到视频流的通道特征。最终本技术将上述三者特征进行加权求和，得到能够感知视频流在不同空间维度上的时间变化的特征，即能够更好地捕捉视频流不同空间维度上的时间变化特征。
185.对于特征融合模块，本技术实施例首先将副网络的特征进行标准化操作，即norm(input_featuer)，然后将标准化后的特征与主网络对应层级的特征进行求和，以此有效地将副网络的特征很好地融入主网络。在实际实施时，本技术实施例采用了双路网络的设计，在主网络与副网络的特征交互上，参见图17所示，通过逐级交互的方式，有效地将副网络学习到的时间特征融入到了主网络，以帮助主网络更有效的进行视频分类。
186.对于视频分类模块，本技术实施例提在主网络的末端，首先将输出融合后的输出特征(即目标时空特征)做了全局平均池化的处理，将二维的特征图转化为一维的向量，然后采用传统的全连接层结构将一维向量输入，最终得到视频分类的特征向量，从而基于该特征向量确定视频所归属的类别。
187.在实际实施时，本技术实施例提供的基于分类模型的视频分类方法在训练过程中，模型可以再在gpu上进行训练，gpu型号为tesla v100-sxm2。在训练以及测试过程中，可以选用多卡gpu(tesla v100-sxm2)进行，对于损失函数，可以选择交叉熵函数(cross entropy loss)对最终的输出向量进行规范与限制。
188.需要说明的是，对于整体架构的设计上，还可以考虑采用混合基础架构的方式进行建模，例如卷积神经网络(cnn)+多层感知器(mlp)，或者transf ormer+多层感知器(mlp)的混合架构，该设计的好处是能够融合多种基础架构的特点，更有效地进行视频内容的理解与分类。
189.应用本技术上述实施例，在进行视频分类的过程中，通过双路特征提取网络的搭建，分别提取待分类视频的全局时空特征以及局部时空特征，从而将提取得到的全局时空特征以及局部时空特征进行特征融合，以得到待分类视频的目标时空特征，从而基于目标时空特征进行最终的视频分类。如此，能够更好的理解视频内容，提高了视频分类的精确度，从而完成不同场景下的视频分类任务。
190.下面继续说明本技术实施例提供的基于分类模型的视频分类装置455的实施为软件模块的示例性结构，在一些实施例中，如图2所示，存储在存储器440的基于分类模型的视频分类装置455中的软件模块可以包括：
191.主特征提取模块4551，用于通过所述分类模型的主特征提取网络，对待分类视频进行第一特征提取，得到所述待分类视频的全局时空特征，所述全局时空特征融合有所述待分类视频的空间特征及所述待分类视频的时间特征；
192.副特征提取模块4552，用于通过所述分类模型的副特征提取网络，对所述待分类视频进行第二特征提取，得到所述待分类视频的局部时空特征，所述局部时空特征融合有所述待分类视频的时间特征、及所述待分类视频在至少两个空间维度的空间子特征；
193.特征融合模块4553，用于通过所述分类模型的特征融合层，对所述全局时空特征以及所述局部时空特征进行特征融合，得到所述待分类视频的目标时空特征；
194.视频分类模块4554，用于通过所述分类模型的视频分类层，基于所述目标时空特征对所述待分类视频进行视频分类，得到所述待分类视频所归属的视频类别。
195.在一些实施例中，所述主特征提取网络包括主空间特征提取层、主时间特征提取层以及主特征融合层，所述主特征提取模块4551，还用于通过所述主空间特征提取层，对所述待分类视频进行空间特征提取，得到所述待分类视频的空间特征；通过所述主时间特征提取层，对所述待分类视频进行时间特征提取，得到所述待分类视频的时间特征；通过所述主特征融合层，对所述空间特征以及所述时间特征进行特征融合，得到所述待分类视频的全局时空特征。
196.在一些实施例中，所述主特征提取网络包括主空间特征提取层、主时间特征提取层以及主特征融合层，所述主特征提取模块4551，还用于通过所述主空间特征提取层，对所述待分类视频进行空间特征提取，得到所述待分类视频的空间特征；通过所述主时间特征提取层，对所述空间特征进行时间特征提取，得到所述待分类视频的时间特征；其中，所述时间特征携带所述待分类视频的空间特征；通过所述主特征融合层，对携带所述空间特征的所述时间特征及所述空间特征进行特征融合，得到所述待分类视频的全局时空特征。
197.在一些实施例中，所述主特征提取模块4551，还用于通过所述主空间特征提取层，对所述待分类视频进行至少两个空间维度的空间特征提取，得到所述待分类视频在至少两个空间维度的第一空间子特征；对所述待分类视频在至少两个空间维度的第一空间子特征进行特征融合，得到所述待分类视频的空间特征。
198.在一些实施例中，所述主特征提取模块4551，还用于获取各所述第一空间子特征的第一权重；基于所述第一权重，对各所述第一空间子特征进行加权融合，得到所述待分类视频的空间特征。
199.在一些实施例中，所述副特征提取网络包括副空间特征提取层、副时间特征提取层以及副特征融合层，所述副特征提取模块4552，还用于通过所述副空间特征提取层，对所述待分类视频进行所述至少两个空间维度的空间特征提取，得到所述待分类视频在各所述空间维度的第二空间子特征；通过所述副时间特征提取层，对所述待分类视频进行时间特征提取，得到所述待分类视频的时间特征；通过所述副特征融合层，将各所述第二空间子特征分别与所述时间特征进行特征融合，得到各所述第二空间子特征对应的时空融合特征，并对各所述第二空间子特征对应的时空融合特征进行融合，得到所述待分类视频的局部时空特征。
200.在一些实施例中，所述副特征提取模块4552，还用于获取各所述第二空间子特征的第二权重；基于所述第二权重，对各所述第二空间子特征对应的时空融合特征进行加权融合，得到所述待分类视频的局部时空特征。
201.在一些实施例中，所述副特征提取网络包括副空间特征提取层、副时间特征提取层以及副特征融合层，所述至少两个空间维度包括通道维度，所述副特征提取模块4552，还用于通过所述副空间特征提取层，对所述待分类视频进行所述至少两个空间维度的空间特征提取，得到所述待分类视频在所述通道维度的通道特征、以及所述待分类视频在其它空间维度的第三空间子特征；通过所述副时间特征提取层，对所述待分类视频进行时间特征提取，得到所述待分类视频的时间特征；通过所述副特征融合层，将各所述第三空间子特征分别与所述时间特征进行特征融合，得到各所述第三空间子特征对应的时空融合特征，并
对所述通道特征及各所述第三空间子特征对应的时空融合特征进行融合，得到所述待分类视频的局部时空特征。
202.在一些实施例中，所述副特征提取模块4552，还用于对所述通道特征及各所述第三空间子特征对应的时空融合特征进行融合，得到中间时空特征；对所述中间时空特征及所述待分类视频在所述至少两个空间维度的空间子特征进行融合，得到所述待分类视频的局部时空特征。
203.在一些实施例中，所述副特征提取模块4552，还用于获取所述通道特征的权重及各所述第三空间子特征的权重；基于所述通道特征的权重及各所述第三空间子特征的权重，对所述通道特征及各所述第三空间子特征对应的时空融合特征进行融合，得到所述待分类视频的局部时空特征。
204.在一些实施例中，所述装置还包括训练模块，所述训练模块用于获取携带标签的视频训练样本；其中，所述标签用于指示所述视频训练样本所归属的视频类别；通过所述主特征提取网络，对所述视频训练样本进行第一特征提取，得到所述视频训练样本的全局时空特征，所述全局时空特征融合有所述视频训练样本的空间特征及所述视频训练样本的时间特征；通过所述副特征提取网络，对所述视频训练样本进行第二特征提取，得到所述视频训练样本的局部时空特征，所述局部时空特征融合有所述视频训练样本的时间特征、及所述视频训练样本在至少两个空间维度的空间子特征；通过所述特征融合层，对所述全局时空特征以及所述局部时空特征进行特征融合，得到所述视频训练样本的目标时空特征；通过所述视频分类层，基于所述目标时空特征对所述视频训练样本进行视频分类，得到所述视频训练样本所归属的视频类别；获取所述视频训练样本所归属的视频类别与所述标签的差异，并基于所述差异更新所述分类模型的模型参数。
205.在一些实施例中，所述装置还包括光流特征提取模块，所述光流特征提取模块，用于通过所述光流特征提取层，对所述待分类视频进行第三特征提取，得到所述待分类视频的光流特征；所述特征融合模块4553，还用于通过所述特征融合层，对所述全局时空特征、所述局部时空特征以及所述光流特征进行特征融合，得到所述待分类视频的目标时空特征。
206.在一些实施例中，所述主特征提取网络与所述副特征提取网络的数量均为至少两个、所述至少两个主特征提取网络串行排列形成级别递增的主特征提取网络序列、所述至少两个副特征提取网络串行排列形成级别递增的副特征提取网络序列、且所述主特征提取网络与所述副特征提取网络的数量相同；所述主特征提取模块4551，还用于通过所述主特征提取网络序列中的至少两个所述主特征提取网络，对待分类视频进行第一特征提取，得到所述待分类视频的全局时空特征；所述副特征提取模块4552，还用于通过所述副特征提取网络序列中的至少两个所述副特征提取网络，对所述待分类视频进行第二特征提取，得到所述待分类视频的局部时空特征；其中，所述主特征提取网络序列中，后一级主特征提取网络的输入为前一级主特征提取网络及副特征提取网络的输出；所述副特征提取网络序列中，后一级副特征提取网络的输入为前一级副特征提取网络的输出。
207.下面说明本技术实施例提供的分类模型的训练装置2400，其中，分类模型包括：主特征提取网络、副特征提取网络、特征融合层及视频分类层，参见图24，图24是本技术实施例提供的分类模型的训练装置2400的结构示意图，本技术实施例提供的分类模型的训练装
置2400包括：
208.主特征提取模块2401，用于对携带标签的视频训练样本进行第一特征提取，得到所述视频训练样本的全局时空特征，所述全局时空特征融合有所述视频训练样本的空间特征及所述视频训练样本的时间特征，所述标签用于指示所述视频训练样本所归属的视频类别；
209.副特征提取模块2402，用于通过所述副特征提取网络，对所述视频训练样本进行第二特征提取，得到所述视频训练样本的局部时空特征，所述局部时空特征融合有所述视频训练样本的时间特征、及所述待分类视频在至少两个空间维度的空间子特征；
210.特征融合模块2403，用于通过所述特征融合层，对所述全局时空特征以及所述局部时空特征进行特征融合，得到所述视频训练样本的目标时空特征；
211.视频分类模块2404，用于通过所述视频分类层，基于所述目标时空特征对所述视频训练样本进行视频分类，得到所述视频训练样本所归属的视频类别；
212.参数更新模块2405，用于获取所述视频训练样本所归属的视频类别与所述标签的差异，并基于所述差异训练所述分类模型，以通过训练得到的分类模型，对待分类视频进行视频分类，得到所述待分类视频所归属的视频类别。
213.本技术实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本技术实施例上述的基于分类模型的视频分类方法。
214.本技术实施例提供一种存储有可执行指令的计算机可读存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本技术实施例提供的基于分类模型的视频分类方法，例如，如图3示出的基于分类模型的视频分类方法。
215.在一些实施例中，计算机可读存储介质可以是fram、rom、prom、ep rom、eeprom、闪存、磁表面存储器、光盘、或cd-rom等存储器；也可以是包括上述存储器之一或任意组合的各种设备。
216.在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
217.作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(html，hyper text markup language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。
218.作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。
219.综上所述，通过本技术实施例能够实现以下技术效果：
220.(1)在进行视频分类的过程中，通过双路特征提取网络的搭建，分别提取待分类视频的全局时空特征以及局部时空特征，从而将提取得到的全局时空特征以及局部时空特征
进行特征融合，以得到待分类视频的目标时空特征，从而基于目标时空特征进行最终的视频分类。如此，能够更好的理解视频内容，提高了视频分类的精确度，从而完成不同场景下的视频分类任务。
221.(2)避免了在特征处理过程中特征的丢失，可以捕捉更充分的空间语义信息，从而提高视频理解的准确性。
222.(3)当空间维度包括通道维度时，通过预先设定通道数量，使得越深处的网络输出特征的分辨率越小，通道数越大，而越浅层的网络输出特征的分辨率越高，通道数越小。这样，在浅层网络处，可以更好地捕捉高细粒度的空间特征，而在深层网络处可以捕捉更充分的空间语义信息，如此，能够更充分地提取时空特征。
223.(4)在确定局部时空特征后，对局部时空特征进行标准化处理，得到标准化局部时空特征；然后通过特征融合层，对全局时空特征以及标准化局部时空特征进行特征融合，得到待分类视频的目标时空特征。如此，对局部时空特征进行便准化操作，从而将标准化后的局部时空特征与全局时空特征进行融合，以有效地将局部时空特征融合入全局时空特征中。
224.(5)通过逐层级的特征融合，从而有效地将局部时空特征融合入全局时空特征中，捕捉更充分的空间语义信息。
225.以上所述，仅为本技术的实施例而已，并非用于限定本技术的保护范围。凡在本技术的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本技术的保护范围之内。

技术特征：
1.一种基于分类模型的视频分类方法，其特征在于，所述分类模型包括：主特征提取网络、副特征提取网络、特征融合层及视频分类层，所述方法包括：通过所述主特征提取网络，对待分类视频进行第一特征提取，得到所述待分类视频的全局时空特征，所述全局时空特征融合有所述待分类视频的空间特征及所述待分类视频的时间特征；通过所述副特征提取网络，对所述待分类视频进行第二特征提取，得到所述待分类视频的局部时空特征，所述局部时空特征融合有所述待分类视频的时间特征、及所述待分类视频在至少两个空间维度的空间子特征；通过所述特征融合层，对所述全局时空特征以及所述局部时空特征进行特征融合，得到所述待分类视频的目标时空特征；通过所述视频分类层，基于所述目标时空特征对所述待分类视频进行视频分类，得到所述待分类视频所归属的视频类别。2.如权利要求1所述的方法，其特征在于，所述主特征提取网络包括主空间特征提取层、主时间特征提取层以及主特征融合层，所述通过所述主特征提取网络，对待分类视频进行第一特征提取，得到所述待分类视频的全局时空特征，包括：通过所述主空间特征提取层，对所述待分类视频进行空间特征提取，得到所述待分类视频的空间特征；通过所述主时间特征提取层，对所述待分类视频进行时间特征提取，得到所述待分类视频的时间特征；通过所述主特征融合层，对所述空间特征以及所述时间特征进行特征融合，得到所述待分类视频的全局时空特征。3.如权利要求1所述的方法，其特征在于，所述主特征提取网络包括主空间特征提取层、主时间特征提取层以及主特征融合层，所述通过所述主特征提取网络，对待分类视频进行第一特征提取，得到所述待分类视频的全局时空特征，包括：通过所述主空间特征提取层，对所述待分类视频进行空间特征提取，得到所述待分类视频的空间特征；通过所述主时间特征提取层，对所述空间特征进行时间特征提取，得到所述待分类视频的时间特征；其中，所述时间特征携带所述待分类视频的空间特征；通过所述主特征融合层，对携带所述空间特征的所述时间特征及所述空间特征进行特征融合，得到所述待分类视频的全局时空特征。4.如权利要求2或3所述的方法，其特征在于，所述通过所述主空间特征提取层，对所述待分类视频进行空间特征提取，得到所述待分类视频的空间特征，包括：通过所述主空间特征提取层，对所述待分类视频进行至少两个空间维度的空间特征提取，得到所述待分类视频在至少两个空间维度的第一空间子特征；对所述待分类视频在至少两个空间维度的第一空间子特征进行特征融合，得到所述待分类视频的空间特征。5.如权利要求4所述的方法，其特征在于，所述对所述待分类视频在至少两个空间维度的第一空间子特征进行特征融合，得到所述待分类视频的空间特征，包括：获取各所述第一空间子特征的第一权重；
基于所述第一权重，对各所述第一空间子特征进行加权融合，得到所述待分类视频的空间特征。6.如权利要求1所述的方法，其特征在于，所述副特征提取网络包括副空间特征提取层、副时间特征提取层以及副特征融合层，所述通过所述副特征提取网络，对所述待分类视频进行第二特征提取，得到所述待分类视频的局部时空特征，包括：通过所述副空间特征提取层，对所述待分类视频进行所述至少两个空间维度的空间特征提取，得到所述待分类视频在各所述空间维度的第二空间子特征；通过所述副时间特征提取层，对所述待分类视频进行时间特征提取，得到所述待分类视频的时间特征；通过所述副特征融合层，将各所述第二空间子特征分别与所述时间特征进行特征融合，得到各所述第二空间子特征对应的时空融合特征，并对各所述第二空间子特征对应的时空融合特征进行融合，得到所述待分类视频的局部时空特征。7.如权利要求6所述的方法，其特征在于，所述对各所述第二空间子特征对应的时空融合特征进行融合，得到所述待分类视频的局部时空特征，包括：获取各所述第二空间子特征的第二权重；基于所述第二权重，对各所述第二空间子特征对应的时空融合特征进行加权融合，得到所述待分类视频的局部时空特征。8.如权利要求1所述的方法，其特征在于，所述副特征提取网络包括副空间特征提取层、副时间特征提取层以及副特征融合层，所述至少两个空间维度包括通道维度；所述通过所述副特征提取网络，对所述待分类视频进行第二特征提取，得到所述待分类视频的局部时空特征，包括：通过所述副空间特征提取层，对所述待分类视频进行所述至少两个空间维度的空间特征提取，得到所述待分类视频在所述通道维度的通道特征、以及所述待分类视频在其它空间维度的第三空间子特征；通过所述副时间特征提取层，对所述待分类视频进行时间特征提取，得到所述待分类视频的时间特征；通过所述副特征融合层，将各所述第三空间子特征分别与所述时间特征进行特征融合，得到各所述第三空间子特征对应的时空融合特征，并对所述通道特征及各所述第三空间子特征对应的时空融合特征进行融合，得到所述待分类视频的局部时空特征。9.如权利要求8所述的方法，其特征在于，所述对所述通道特征及各所述第三空间子特征对应的时空融合特征进行融合，得到所述待分类视频的局部时空特征，包括：对所述通道特征及各所述第三空间子特征对应的时空融合特征进行融合，得到中间时空特征；对所述中间时空特征及所述待分类视频在所述至少两个空间维度的空间子特征进行融合，得到所述待分类视频的局部时空特征。10.如权利要求8所述的方法，其特征在于，所述对所述通道特征及各所述第三空间子特征对应的时空融合特征进行融合，得到所述待分类视频的局部时空特征，包括：获取所述通道特征的权重及各所述第三空间子特征的权重；基于所述通道特征的权重及各所述第三空间子特征的权重，对所述通道特征及各所述
第三空间子特征对应的时空融合特征进行融合，得到所述待分类视频的局部时空特征。11.如权利要求1所述的方法，其特征在于，所述通过所述主特征提取网络，对待分类视频进行第一特征提取，得到融合有所述待分类视频的空间特征及所述待分类视频的时间特征的全局时空特征之前，还包括：获取携带标签的视频训练样本；其中，所述标签用于指示所述视频训练样本所归属的视频类别；通过所述主特征提取网络，对所述视频训练样本进行第一特征提取，得到所述视频训练样本的全局时空特征，所述全局时空特征融合有所述视频训练样本的空间特征及所述视频训练样本的时间特征；通过所述副特征提取网络，对所述视频训练样本进行第二特征提取，得到所述视频训练样本的局部时空特征，所述局部时空特征融合有所述视频训练样本的时间特征、及所述视频训练样本在至少两个空间维度的空间子特征；通过所述特征融合层，对所述全局时空特征以及所述局部时空特征进行特征融合，得到所述视频训练样本的目标时空特征；通过所述视频分类层，基于所述目标时空特征对所述视频训练样本进行视频分类，得到所述视频训练样本所归属的视频类别；获取所述视频训练样本所归属的视频类别与所述标签的差异，并基于所述差异更新所述分类模型的模型参数。12.如权利要求1所述的方法，其特征在于，所述分类模型还包括光流特征提取层，所述方法还包括：通过所述光流特征提取层，对所述待分类视频进行第三特征提取，得到所述待分类视频的光流特征；所述通过所述特征融合层，对所述全局时空特征以及所述局部时空特征进行特征融合，得到所述待分类视频的目标时空特征，包括：通过所述特征融合层，对所述全局时空特征、所述局部时空特征以及所述光流特征进行特征融合，得到所述待分类视频的目标时空特征。13.如权利要求1所述的方法，其特征在于，所述主特征提取网络与所述副特征提取网络的数量均为至少两个、所述至少两个主特征提取网络串行排列形成级别递增的主特征提取网络序列、所述至少两个副特征提取网络串行排列形成级别递增的副特征提取网络序列、且所述主特征提取网络与所述副特征提取网络的数量相同；所述通过所述主特征提取网络，对待分类视频进行第一特征提取，得到所述待分类视频的全局时空特征，包括：通过所述主特征提取网络序列中的至少两个所述主特征提取网络，对待分类视频进行第一特征提取，得到所述待分类视频的全局时空特征；通过所述副特征提取网络，对所述待分类视频进行第二特征提取，得到所述待分类视频的局部时空特征，包括：通过所述副特征提取网络序列中的至少两个所述副特征提取网络，对所述待分类视频进行第二特征提取，得到所述待分类视频的局部时空特征；其中，所述主特征提取网络序列中，后一级主特征提取网络的输入为前一级主特征提
取网络及副特征提取网络的输出；所述副特征提取网络序列中，后一级副特征提取网络的输入为前一级副特征提取网络的输出。14.一种分类模型的训练方法，其特征在于，所述分类模型包括：主特征提取网络、副特征提取网络、特征融合层及视频分类层，所述方法包括：通过所述主特征提取网络，对携带标签的视频训练样本进行第一特征提取，得到所述视频训练样本的全局时空特征，所述全局时空特征融合有所述视频训练样本的空间特征及所述视频训练样本的时间特征，所述标签用于指示所述视频训练样本所归属的视频类别；通过所述副特征提取网络，对所述视频训练样本进行第二特征提取，得到所述视频训练样本的局部时空特征，所述局部时空特征融合有所述视频训练样本的时间特征、及所述待分类视频在至少两个空间维度的空间子特征；通过所述特征融合层，对所述全局时空特征以及所述局部时空特征进行特征融合，得到所述视频训练样本的目标时空特征；通过所述视频分类层，基于所述目标时空特征对所述视频训练样本进行视频分类，得到所述视频训练样本所归属的视频类别；获取所述视频训练样本所归属的视频类别与所述标签的差异，并基于所述差异训练所述分类模型，以通过训练得到的分类模型，对待分类视频进行视频分类，得到所述待分类视频所归属的视频类别。15.一种基于分类模型的视频分类装置，其特征在于，所述分类模型包括：主特征提取网络、副特征提取网络、特征融合层及视频分类层，所述装置包括：主特征提取模块，用于通过所述主特征提取网络，对待分类视频进行第一特征提取，得到所述待分类视频的全局时空特征，所述全局时空特征融合有所述待分类视频的空间特征及所述待分类视频的时间特征；副特征提取模块，用于通过所述副特征提取网络，对所述待分类视频进行第二特征提取，得到所述待分类视频的局部时空特征，所述局部时空特征融合有所述待分类视频的时间特征、及所述待分类视频在至少两个空间维度的空间子特征；特征融合模块，用于通过所述特征融合层，对所述全局时空特征以及所述局部时空特征进行特征融合，得到所述待分类视频的目标时空特征；视频分类模块，用于通过所述视频分类层，基于所述目标时空特征对所述待分类视频进行视频分类，得到所述待分类视频所归属的视频类别。16.一种分类模型的训练装置，其特征在于，所述分类模型包括：主特征提取网络、副特征提取网络、特征融合层及视频分类层，所述装置包括：主特征提取模块，用于对携带标签的视频训练样本进行第一特征提取，得到所述视频训练样本的全局时空特征，所述全局时空特征融合有所述视频训练样本的空间特征及所述视频训练样本的时间特征，所述标签用于指示所述视频训练样本所归属的视频类别；副特征提取模块，用于通过所述副特征提取网络，对所述视频训练样本进行第二特征提取，得到所述视频训练样本的局部时空特征，所述局部时空特征融合有所述视频训练样本的时间特征、及所述待分类视频在至少两个空间维度的空间子特征；特征融合模块，用于通过所述特征融合层，对所述全局时空特征以及所述局部时空特征进行特征融合，得到所述视频训练样本的目标时空特征；
视频分类模块，用于通过所述视频分类层，基于所述目标时空特征对所述视频训练样本进行视频分类，得到所述视频训练样本所归属的视频类别；参数更新模块，用于获取所述视频训练样本所归属的视频类别与所述标签的差异，并基于所述差异训练所述分类模型，以通过训练得到的分类模型，对待分类视频进行视频分类，得到所述待分类视频所归属的视频类别。17.一种电子设备，其特征在于，包括：存储器，用于存储可执行指令；处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至14任一项所述的方法。18.一种计算机可读存储介质，其特征在于，存储有可执行指令，用于引起处理器执行时，实现权利要求1-14任一项所述的方法。19.一种计算机程序产品，包括计算机程序或指令，其特征在于，所述计算机程序或指令被处理器执行时实现权利要求1至14任一项所述的方法。

技术总结
本申请提供了一种基于分类模型的视频分类方法，包括：通过分类模型的主特征提取网络，对待分类视频进行第一特征提取，得到融合有待分类视频的空间特征及待分类视频的时间特征的全局时空特征；然后，通过副特征提取网络，对待分类视频进行第二特征提取，得到融合有待分类视频的时间特征、及待分类视频在至少两个空间维度的空间子特征的局部时空特征；接着，通过特征融合层，对全局时空特征以及局部时空特征进行特征融合，得到待分类视频的目标时空特征；最后，通过视频分类层，基于目标时空特征对待分类视频进行视频分类，得到待分类视频所归属的视频类别。通过本申请，能够提高针对视频内容理解的精确度，从而完成不同场景下的视频分类任务。分类任务。分类任务。

技术研发人员：宋奕兵葛崇剑
受保护的技术使用者：腾讯科技（深圳）有限公司
技术研发日：2022.01.29
技术公布日：2022/5/25

转载请注明原文地址:https://tc.8miu.com/read-23705.html

专利

最新回复(0)