一种视频特征处理方法和相关装置与流程

专利查询2025-09-14 316

本技术涉及数据处理领域，特别是涉及一种视频特征处理方法和相关装置。

背景技术：

1、目前可以对视频的内容进行识别，具体的，可以对视频进行抽帧得到多个视频帧，对多个视频帧进行识别从而获取到对视频的识别结果，例如获取到视频的内容标签。通过为海量的用户生产内容(user-generated content，ugc)视频进行自动的内容识别，可以为下游内容分发链路(例如推荐系统、内容运营等)提供不同粒度的视频内容信息，提升内容分发的效率，减少人工进行内容审核的成本。

2、然而针对视频集而言，这种识别方式存在一定的缺陷。这是因为视频集的总帧数往往较大，通过抽帧进行视频帧识别的方式中，若抽帧数量较少，则确定的识别结果不能覆盖视频的大部分内容，导致内容识别的准确性较低，若抽帧数量较多，则会在对视频帧识别的过程中显著增加耗时和内存/现存消耗，严重增加成本。这导致针对视频集的内容识别存在难点。

技术实现思路

1、为了解决上述技术问题，本技术提供了一种视频特征处理方法和相关装置，经过不同视频帧之间和不同视频之间的两次特征的聚类来提取关键特征，可以在充分保留视频集中的各个视频中的各个视频片段中的关键信息，同时减少对视频集进行识别所需要处理的关键特征的数量，显著减少计算量。

2、本技术实施例公开了如下技术方案：

3、一方面，本技术提供一种视频特征处理方法，所述方法包括：

4、将视频集中的多个视频分别作为待处理视频，对所述待处理视频进行分段处理得到多个视频片段，每个所述视频片段包括多个视频帧；

5、对所述多个视频帧分别进行特征提取得到所述多个视频帧的图像特征；

6、将所述多个视频片段分别作为目标片段，对所述目标片段中的多个视频帧的图像特征进行聚类，得到所述目标片段的关键特征；

7、合并所述多个视频片段的关键特征得到所述待处理视频的视频特征；

8、将所述视频集中的多个视频的视频特征进行聚类得到所述视频集的关键特征，所述视频集的关键特征用于确定所述视频集的识别结果。

9、可选的，所述将所述多个视频片段分别作为目标片段，对所述目标片段中的多个视频帧的图像特征进行聚类，得到所述目标片段的关键特征，包括：

10、将所述多个视频片段分别作为目标片段，对所述目标片段中的多个视频帧的图像特征进行聚类得到第一聚类结果，所述第一聚类结果包括多个第一聚类簇；

11、根据所述多个第一聚类簇的关键特征确定所述目标片段的关键特征；

12、所述将所述视频集中的多个视频的视频特征进行聚类，得到所述视频集的关键特征，包括：

13、将所述视频集中的多个视频的视频特征进行聚类得到第二聚类结果，所述第二聚类结果包括多个第二聚类簇；

14、根据所述多个第二聚类簇的关键特征确定所述视频集的关键特征。

15、可选的，所述根据所述多个第一聚类簇的关键特征确定所述目标片段的关键特征，包括：将所述多个第一聚类簇的聚类中心的特征合并得到所述目标片段的关键特征；

16、所述根据所述多个第二聚类簇的关键特征确定所述视频集的关键特征，包括：将所述多个第二聚类簇的聚类中心的特征合并得到所述视频集的关键特征。

17、可选的，所述将所述多个视频片段分别作为目标片段，对所述目标片段中的多个视频帧的图像特征进行聚类得到第一聚类结果，包括：

18、将所述多个视频片段分别作为目标片段，基于多个不同的第一尺度，对所述目标片段中的多个视频帧的图像特征进行聚类，得到多个第一尺度分别对应的第一聚类结果，所述第一尺度用于指示对应的第一聚类结果中的第一聚类簇的数量；所述目标片段的关键特征包括所述目标片段的多个第一尺度分别对应的关键特征；

19、所述合并所述多个视频片段的关键特征得到所述待处理视频的视频特征，包括：将所述多个视频片段的关键特征中对应相同第一尺度的关键特征合并，得到所述待处理视频的分别对应多个第一尺度的视频特征；

20、所述将所述视频集中的多个视频的视频特征进行聚类得到第二聚类结果，包括：对所述视频集中的多个视频的视频特征中，对应相同第一尺度的视频特征进行聚类，得到分别对应多个第一尺度的第二聚类结果；所述视频集的关键特征包括所述视频集的多个第一尺度分别对应的关键特征。

21、可选的，每个第二聚类结果包括分别对应多个不同的第二尺度的子结果，每个子结果包括多个第二聚类簇；所述第二尺度用于指示对应的第二聚类结果中的第二聚类簇的数量；

22、所述视频集的每个第一尺度的关键特征包括所述视频集的所述第一尺度的分别对应多个第二尺度的多个子特征。

23、可选的，所述方法还包括：

24、对所述视频集的关键特征进行语义空间转换得到所述视频集的视觉特征；

25、对所述视频集的视觉特征进行处理得到所述视频集的识别结果。

26、可选的，所述对所述视频集的视觉特征进行处理得到所述视频集的识别结果，包括：

27、根据指令特征所指示的识别意图，通过生成式语言模块对所述视频集的视觉特征进行处理，确定所述视频集的识别结果。

28、可选的，所述根据指令特征所指示的识别意图，通过生成式语言模块对所述视频集的视觉特征进行处理，确定所述视频集的识别结果，包括：

29、通过生成式语言模块对所述视频集的视觉特征和所述视频集的文本特征进行拼接得到所述视频集的综合特征；

30、根据指令特征所指示的识别意图，对所述视频集的综合特征进行处理，确定所述视频集的识别结果。

31、可选的，所述对所述视频集的关键特征进行语义空间转换，得到所述视频集的视觉特征，包括：

32、通过特征对齐模块对所述视频集的关键特征进行语义空间转换，得到所述视频集的视觉特征；

33、所述方法还包括：

34、基于包括视频训练特征、文本训练特征、指令训练特征和输出训练特征的训练样本，对所述特征对齐模块进行训练；

35、其中，所述特征对齐模块用于对视频训练特征进行语义空间转换，得到视觉训练特征；所述生成式语言模块用于对所述视觉训练特征和文本训练特征进行拼接得到所述综合训练特征；根据指令训练特征所指示的识别意图，对所述综合训练特征进行处理确定输出预测特征，所述特征对齐模块的参数基于所述输出预测特征和所述输出训练特征进行调整。

36、可选的，所述将视频集中的多个视频分别作为待处理视频，对所述待处理视频进行分段处理得到多个视频片段，包括：

37、将视频集中的多个视频分别作为待处理视频，对所述待处理视频进行等间隔抽帧得到图像序列；

38、将所述图像序列按照时间维度分为多个视频片段。

39、可选的，所述方法还包括：

40、对初始视频进行切分得到所述多个视频。

41、另一方面，本技术提供一种视频特征处理装置，所述装置包括：

42、分段单元，用于将视频集中的多个视频分别作为待处理视频，对所述待处理视频进行分段处理得到多个视频片段，每个所述视频片段包括多个视频帧；

43、特征提取单元，用于对所述多个视频帧分别进行特征提取得到所述多个视频帧的图像特征；

44、第一聚类单元，用于将所述多个视频片段分别作为目标片段，对所述目标片段中的多个视频帧的图像特征进行聚类，得到所述目标片段的关键特征；

45、合并单元，用于合并所述多个视频片段的关键特征得到所述待处理视频的视频特征；

46、第二聚类单元，用于将所述视频集中的多个视频的视频特征进行聚类得到所述视频集的关键特征，所述视频集的关键特征用于确定所述视频集的识别结果。

47、可选的，所述第一聚类单元，包括：

48、第一聚类子单元，用于将所述多个视频片段分别作为目标片段，对所述目标片段中的多个视频帧的图像特征进行聚类得到第一聚类结果，所述第一聚类结果包括多个第一聚类簇；

49、第一压缩单元，用于根据所述多个第一聚类簇的关键特征确定所述目标片段的关键特征；

50、所述第二聚类单元，包括：

51、第二聚类子单元，用于将所述视频集中的多个视频的视频特征进行聚类得到第二聚类结果，所述第二聚类结果包括多个第二聚类簇；

52、第二压缩单元，用于根据所述多个第二聚类簇的关键特征确定所述视频集的关键特征。

53、可选的，所述第一压缩单元具体用于：将所述多个第一聚类簇的聚类中心的特征合并得到所述目标片段的关键特征；

54、所述第二压缩单元具体用于：将所述多个第二聚类簇的聚类中心的特征合并得到所述视频集的关键特征。

55、可选的，所述第一聚类子单元具体用于：将所述多个视频片段分别作为目标片段，基于多个不同的第一尺度，对所述目标片段中的多个视频帧的图像特征进行聚类，得到多个第一尺度分别对应的第一聚类结果，所述第一尺度用于指示对应的第一聚类结果中的第一聚类簇的数量；所述目标片段的关键特征包括所述目标片段的多个第一尺度分别对应的关键特征；

56、所述合并单元具体用于：将所述多个视频片段的关键特征中对应相同第一尺度的关键特征合并，得到所述待处理视频的分别对应多个第一尺度的视频特征；

57、所述第二聚类子单元具体用于：对所述视频集中的多个视频的视频特征中，对应相同第一尺度的视频特征进行聚类，得到分别对应多个第一尺度的第二聚类结果；所述视频集的关键特征包括所述视频集的多个第一尺度分别对应的关键特征。

58、可选的，每个第二聚类结果包括分别对应多个不同的第二尺度的子结果，每个子结果包括多个第二聚类簇；所述第二尺度用于指示对应的第二聚类结果中的第二聚类簇的数量；

59、所述视频集的每个第一尺度的关键特征包括所述视频集的所述第一尺度的分别对应多个第二尺度的多个子特征。

60、可选的，所述装置还包括：

61、转换单元，用于对所述视频集的关键特征进行语义空间转换得到所述视频集的视觉特征；

62、识别单元，用于对所述视频集的视觉特征进行处理得到所述视频集的识别结果。

63、可选的，所述识别单元，包括：

64、识别子单元，用于根据指令特征所指示的识别意图，通过生成式语言模块对所述视频集的视觉特征进行处理，确定所述视频集的识别结果。

65、可选的，所述识别子单元，包括：

66、拼接单元，用于通过生成式语言模块对所述视频集的视觉特征和所述视频集的文本特征进行拼接得到所述视频集的综合特征；

67、特征处理单元，用于根据指令特征所指示的识别意图，对所述视频集的综合特征进行处理，确定所述视频集的识别结果。

68、可选的，所述转换单元具体用于：

69、通过特征对齐模块对所述视频集的关键特征进行语义空间转换，得到所述视频集的视觉特征；

70、所述装置还包括：

71、训练单元，用于基于包括视频训练特征、文本训练特征、指令训练特征和输出训练特征的训练样本，对所述特征对齐模块进行训练；

72、其中，所述特征对齐模块用于对视频训练特征进行语义空间转换，得到视觉训练特征；所述生成式语言模块用于对所述视觉训练特征和文本训练特征进行拼接得到所述综合训练特征；根据指令训练特征所指示的识别意图，对所述综合训练特征进行处理确定输出预测特征，所述特征对齐模块的参数基于所述输出预测特征和所述输出训练特征进行调整。

73、可选的，所述分段单元，包括：

74、抽帧单元，用于将视频集中的多个视频分别作为待处理视频，对所述待处理视频进行等间隔抽帧得到图像序列；

75、片段构建单元，用于将所述图像序列按照时间维度分为多个视频片段。

76、可选的，所述装置还包括：

77、切分单元，用于对初始视频进行切分得到所述多个视频。

78、另一方面，本技术提供一种计算机设备，所述设备包括处理器以及存储器：

79、所述存储器用于存储计算机程序，并将所述计算机程序传输给所述处理器；

80、所述处理器用于根据所述计算机程序中的指令执行上述方面所述的视频特征处理方法。

81、另一方面，本技术实施例提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行上述方面所述的视频特征处理方法。

82、另一方面，本技术实施例提供了一种包括计算机程序的计算机程序产品，当其在计算机设备上运行时，使得所述计算机设备执行所述的视频特征处理方法。

83、由上述技术方案可以看出，将视频集中的多个视频分别作为待处理视频，对待处理视频进行分段处理得到多个视频片段，每个视频片段包括多个视频帧，对多个视频帧分别进行特征提取，得到多个视频帧的图像特征。将多个视频片段分别作为目标片段，对目标片段中的多个视频帧的图像特征进行聚类，得到目标片段的关键特征，之后可以合并多个视频片段的关键特征，得到待处理视频的视频特征，即通过目标片段内的不同视频帧的聚类提取到了目标片段的关键特征，舍弃了目标片段中不同视频帧之间的冗余特征，在充分保留视频帧的信息的前提下减少了目标片段的特征量，进而减少了待处理视频的特征量。将视频集中的多个视频的视频特征进行聚类，得到视频集的关键特征，视频集的关键特征用于确定视频集的识别结果，即通过视频集中的多个视频的聚类提取到了视频集的关键特征，舍弃了视频集中不同视频之间的冗余特征，在充分保留视频的信息的前提下减少了视频集的特征量。这样，经过不同视频帧之间和不同视频之间的两次特征的聚类来提取关键特征，可以在充分保留视频集中的各个视频中的各个视频片段中的关键信息，同时减少对视频集进行识别所需要处理的关键特征的数量，显著减少计算量。

技术特征：

1.一种视频特征处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述多个视频片段分别作为目标片段，对所述目标片段中的多个视频帧的图像特征进行聚类，得到所述目标片段的关键特征，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述多个第一聚类簇的关键特征确定所述目标片段的关键特征，包括：将所述多个第一聚类簇的聚类中心的特征合并得到所述目标片段的关键特征；

4.根据权利要求2所述的方法，其特征在于，所述将所述多个视频片段分别作为目标片段，对所述目标片段中的多个视频帧的图像特征进行聚类得到第一聚类结果，包括：

5.根据权利要求3所述的方法，其特征在于，每个第二聚类结果包括分别对应多个不同的第二尺度的子结果，每个子结果包括多个第二聚类簇；所述第二尺度用于指示对应的第二聚类结果中的第二聚类簇的数量；

6.根据权利要求1-5任一项所述的方法，其特征在于，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所述对所述视频集的视觉特征进行处理得到所述视频集的识别结果，包括：

8.根据权利要求7所述的方法，其特征在于，所述根据指令特征所指示的识别意图，通过生成式语言模块对所述视频集的视觉特征进行处理，确定所述视频集的识别结果，包括：

9.根据权利要求8所述的方法，其特征在于，所述对所述视频集的关键特征进行语义空间转换，得到所述视频集的视觉特征，包括：

10.根据权利要求1-5任一项所述的方法，其特征在于，所述将视频集中的多个视频分别作为待处理视频，对所述待处理视频进行分段处理得到多个视频片段，包括：

11.根据权利要求1-5任一项所述的方法，其特征在于，所述方法还包括：

12.一种视频特征处理装置，其特征在于，所述装置包括：

13.一种计算机设备，其特征在于，所述计算机设备包括处理器以及存储器：

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行权利要求1-11中任意一项所述的视频特征处理方法。

15.一种包括计算机程序的计算机程序产品，其特征在于，当其在计算机设备上运行时，使得所述计算机设备执行权利要求1-11中任意一项所述的视频特征处理方法。

技术总结
本申请公开了一种视频特征处理方法和相关装置，将视频集中的多个视频分别作为待处理视频，对待处理视频进行分段处理得到多个视频片段，每个视频片段包括多个视频帧，对多个视频帧分别进行特征提取，得到多个视频帧的图像特征。将多个视频片段分别作为目标片段，对目标片段中的多个视频帧的图像特征进行聚类，得到目标片段的关键特征，合并多个视频片段的关键特征，得到待处理视频的视频特征。将视频集中的多个视频的视频特征进行聚类，得到视频集的关键特征，视频集的关键特征用于确定视频集的识别结果，经过不同视频帧之间和不同视频之间的两次特征的聚类提取关键特征，可以在充分保留视频集中的关键信息，同时减少需要处理的关键特征的数量。

技术研发人员：陈世哲
受保护的技术使用者：腾讯科技（深圳）有限公司
技术研发日：
技术公布日：2024/11/26

转载请注明原文地址:https://tc.8miu.com/read-31243.html

专利

最新回复(0)