一种自适应掩码的双通道行为识别方法、设备及存储设备

    专利查询2025-10-21  5


    本发明涉及视频行为识别领域,尤其涉及一种自适应掩码的双通道行为识别方法、设备及存储设备。


    背景技术:

    1、由于视频内容的复杂性以及单一算法处理视频行为识别的局限性,单一模型往往难以全面地捕捉视频中的动态和静态信息。

    2、现有的视频行为识别方法按照实现原理可以分为基于骨骼点的方法、基于rgb像素信息的方法、基于编码器的方法。由于视频行为识别任务原理的复杂性限制,基于rgb像素信息的方法无法具备全面理解场景的能力。而在现实应用场景下,基于骨骼点的算法往往误报率很高,很难实际应用。而基于编码器的算法,能够将图像中的特征信息进行掩码处理,借此来提升模型对视频中人体行为的理解能力。比如基于rgb像素信息的算法,能够全面学习视频的所有特征信息,较好地学习视频的特征细节,但是容易受到光照条件和环境复杂性等外界因素所限制。相对应的基于编码器的算法,并不是像前者那样对视频的所有特征信息进行学习,而是学习图像的部分更加高级信息;其思想是对图像进行伪随机掩码,在减少信息丢失的前提下,以极高的掩码率(70%-75%)对视频进行掩码,算法尽可能地通过较少的信息学习更加高级的语义信息,来增强其对复杂场景的处理能力。在平均准确率指标上,基于rgb像素信息的算法要远远优于基于编码器的算法;而在对复杂场景的理解能力上,特别考虑到很多现实场景的复杂性,后者的鲁棒性和准确性上要远远优于前者。

    3、尽管slowfast网络和videomae算法为视频行为识别提供了先进的技术框架,它们在实际应用中仍然面临着一些显著的局限性:

    4、1)对于slowfast网络,虽然其设计能够提取视频中的快速和慢速特征,以增强动作识别的准确性,但在极端动态变化的场景中,slowfast网络无法完全捕获所有关键动态,这限制了其在复杂环境下的应用效果。

    5、2)对于videomae,它通过一个创新的掩码策略来预测视频中被掩码的部分,从而促进模型学习深层次的视频内容。然而,该方法的掩码策略具有一定的随机性,可能会导致关键动作信息的遗漏,尤其是在视频中动作变化细微或迅速的情况下。加之,videomae的效果在很大程度上依赖于训练数据的丰富性和多样性,因此,在数据较少或数据多样性不足的场景中,其性能可能不尽人意。

    6、综上所述,尽管这些技术各有其独特的优势和应用领域,但它们在处理丰富现实场景下的视频内容时仍存在局限。


    技术实现思路

    1、为了提供一种更为全面和高效的视频行为识别解决方案,以适应更广泛的应用场景和要求,本发明提供了一种自适应掩码的双通道行为识别方法、设备及存储设备。一种自适应掩码的双通道行为识别方法,主要包括:

    2、s1:将输入的视频帧序列进行预处理;

    3、s2:使用slowfast网络模型,分别从视频帧中提取快速通道特征和慢速通道特征,随后将视频信息分为两条通道分别进行处理;

    4、s3:根据快速通道特征和慢速通道特征,动态调整视频帧的掩码率,进行伪随机掩码,得到未掩码和掩码的特征块;

    5、s4:对掩码的特征块赋予掩码令牌,对于未掩码的特征块,应用自注意力机制进行计算,最终获得注意力特征矩阵z;

    6、s5:将注意力特征矩阵和掩码令牌输入到videomae网络的全连接层,输出两条通道的特征重建矩阵;

    7、s6:根据两个特征重建矩阵,通过双通道的横向连接,实现信息融合和行为识别。

    8、一种存储设备,所述存储设备存储指令及数据用于实现一种自适应掩码的双通道行为识别方法。

    9、一种自适应掩码的双通道行为识别设备,包括:处理器及存储设备;所述处理器加载并执行所述存储设备中的指令及数据用于实现一种自适应掩码的双通道行为识别方法。

    10、本发明提供的技术方案带来的有益效果是:本发明中的slowfast网络能够同时提取视频中的快速动作和背景静态信息,确保动态行为的精确捕捉;videomae通过预测掩码的视频帧内容,增强了模型对视频全局内容的理解深度。本发明通过双通道的方法,降低了videomae算法的计算复杂度,通过自适应伪随机掩码,进一步提高了原算法的准确性和鲁棒性,减少了数据丢失的可能。本发明能够缓解原算法依赖于训练数据的丰富性和多样性,在数据较少或数据多样性不足的场景中,本发明所提的方法性能更好。通过融合slowfast的特征学习方法和videomae的掩码学习机制,进一步提高了原算法的行为预测置信度,提高了对视频行为的识别能力和行为预测置信度,降低了原算法的计算复杂度,具有广泛的应用前景与实际应用需求。



    技术特征:

    1.一种自适应掩码的双通道行为识别方法,其特征在于:包括:

    2.如权利要求1所述的一种自适应掩码的双通道行为识别方法,其特征在于:s1中,所述预处理是指,对视频分辨率进行调整,调整方法为下采样,将原始视频的1920×1080分辨率下采样到256×256。

    3.如权利要求1所述的一种自适应掩码的双通道行为识别方法,其特征在于:s3中,动态调整视频帧的掩码率的计算公式为:

    4.如权利要求1所述的一种自适应掩码的双通道行为识别方法,其特征在于:s4中,自注意力机制的计算分为三个部分:计算查询q、键k和值v:

    5.如权利要求4所述的一种自适应掩码的双通道行为识别方法,其特征在于:s4中,利用这三个值进行注意力权重a计算,如公式(3)所示:

    6.如权利要求1所述的一种自适应掩码的双通道行为识别方法,其特征在于:s5中,慢速通道的特征形状和快速通道的特征形状分别如公式(5)所示:

    7.如权利要求1所述的一种自适应掩码的双通道行为识别方法,其特征在于:s6中,将双通道的特征重建矩阵进行特征拼接,将拼接后的矩阵输入softmax分类器,softmax分类器如公式(7)所示:

    8.一种存储设备,其特征在于:所述存储设备存储指令及数据用于实现权利要求1~7任一项所述的自适应掩码的双通道行为识别方法。

    9.一种自适应掩码的双通道行为识别设备,其特征在于:包括:处理器及存储设备;所述处理器加载并执行所述存储设备中的指令及数据用于实现权利要求1~7任一项所述的自适应掩码的双通道行为识别方法。


    技术总结
    本发明提供了一种自适应掩码的双通道行为识别方法、设备及存储设备,涉及视频行为识别领域,该方法包括:使用SlowFast网络模型,分别从视频帧中提取快速通道特征和慢速通道特征;并动态调整视频帧的掩码率,进行伪随机掩码,得到未掩码和掩码的特征块;对掩码的特征块赋予掩码令牌,对于未掩码的特征块,应用自注意力机制进行计算,得到注意力特征矩阵Z;将注意力特征矩阵和掩码令牌输入到全连接层,输出特征重建矩阵;根据两条通道的特征重建矩阵,通过横向连接,实现通道的信息融合,最终通过Softmax分类器进行行为识别。本发明的有益效果是:提高了模型在复杂场景下的行为识别能力,提高了行为预测置信度,降低了原算法的计算复杂度。

    技术研发人员:陈珺,邓赛龙,刘玮,魏龙生,熊永华
    受保护的技术使用者:中国地质大学(武汉)
    技术研发日:
    技术公布日:2024/11/26
    转载请注明原文地址:https://tc.8miu.com/read-31488.html

    最新回复(0)