本发明涉及计算机视觉领域,尤其涉及一种基于空间特征增强的人体骨架动作识别方法。
背景技术:
1、人体骨架动作识别是指利用计算机视觉技术从图像或视频中检测和识别人体的关键关节点的位置,以及推断出人体动作的过程。动作识别作为计算机视觉领域一个极其重要的组成部分和最活跃的研究课题,已经被研究了几十年。由于动作可以被人类用来处理事务和表达情感,动作识别可以在广泛的应用领域中使用。随着深度学习以及人工智能技术的不断进步,这一技术在近年来取得了显著的进展,这一研究方向对于许多领域都具有重要的意义。
2、基于人体骨架的动作识别依赖于人体姿态估计技术,它的基本原理是通过从视频或图像中提取出人体关键点(如头部、肩膀、手肘、膝盖等)的空间位置信息,从而构建出一个反映人体姿态的骨架结构。这个骨架可以用一个图表示,其中节点表示关键点,边表示它们之间的连接关系。
3、随着深度学习方法的日益发展及其在大多数其他现有计算机视觉任务中的令人印象深刻的表现,例如图像分类,目标检测,语义分割,姿态估计等,使用递归神经网络(rnn),卷积神经网络(cnn)和图卷积网络(gcn)进行骨架序列的人体姿势识别的深度学习方法也随之出现。虽然图卷积神经网络可以学习人体骨架关节点的拓扑结构,但是由于图卷积中的邻接矩阵是预定义的,并不能很好的聚合人体结构中相邻较远的关节点之间的空间相关性。
技术实现思路
1、为解决上述问题,本发明公开了一种基于空间特征增强的人体骨架动作识别方法,以解决目前网络模型并不能很好的聚合人体结构中相邻较远的关节点之间的空间相关性的问题。
2、为了解决上述技术问题,本发明采用的技术方案为:
3、基于空间特征增强的人体骨架动作识别方法,包括如下步骤:
4、s1、获取人体骨架关节点的视频序列数据,将人体骨架数据分别进行同一帧相邻关节点相减、相邻帧相同关节点相减等处理,将原始人体骨架数据处理成关节、骨骼、关节运动、骨骼运动四种不同模态的数据;
5、s2、使用空间划分策略定义人体骨架关节点的邻接矩阵,将节点划分为三部分,在后续的图卷积空间建模过程使用;
6、s3、在空间维度的特征提取过程中,我们使用通道拓扑细化图卷积动态学习不同的拓扑结构,聚合用于人体骨架动作识别的不同通道的关节特征,使用每个通道的通道特定相关性进行细化来对通道拓扑进行建模。
7、s4、将通过通道拓扑细化图卷积处理后的人体骨架特征输入到空间聚合模块mixer中,将人体的图结构结合到多层感知机的模型之中,以满足基于人体骨架的动作识别的特定领域需求,同时允许局部和全局空间交互,增强空间维度的特征提取。
8、s5、将通过空间维度建模的人体骨架特征输入到多分支时间卷积网络中进行时间维度的特征提取;
9、s6、将通过空间建模和时间建模后提取到的姿态特征输入到全连接层进行解码,获取到单个模态数据的动作的预测结果;
10、s7、将四种不同模态数据得到的结果进行加权融合,获取到模型最终的动作识别结果。
11、在一些实施例中,s1中,关节流模态数据的处理按照如下步骤:
12、(1)将原始的人体骨架关节点数据第一帧中的人的中心关节点与3d笛卡尔坐标系的原点对准;
13、(2)旋转所有骨架关节点,使得第一帧中的人的脊柱与3d笛卡尔坐标系中的z轴平行。
14、骨骼流模态数据由关节流模态数据以中心关节点为原点,相同帧间的相邻关节点相减获得。
15、关节运动流模态数据和骨骼运动流模态数据由相应的模态数据流相邻帧之间相同关节点相减获得。
16、进一步的,s2中,使用空间划分策略定义人体骨架关节点的邻接矩阵,将节点划分为三部分,分别为关节点本身、比关节点本身距离中心关节点更近的邻节点、当前关节点的其他邻节点。
17、
18、其中ri是所有帧上从中心关节点到关节i的平均距离。
19、进一步的,s3中,通道拓扑细化图卷积动态有效的对通道拓扑进行建模。ctr-gc不是独立地学习不同通道的拓扑,而是以细化的方式学习通道拓扑。具体来说,ctr-gc同时学习共享拓扑和特定于通道的相关性。共享拓扑是一个参数化的邻接矩阵,作为所有通道的拓扑先验,并提供顶点之间的通用相关性。针对每个样本动态推断通道特定的相关性,并且捕获每个通道内的顶点之间的关系。通过使用特定于通道的相关性来细化共享拓扑,避免了单独建模每个通道的拓扑结构,并引入了一些额外的参数,这显著降低了对通道拓扑结构进行建模的难度。
20、拓扑共享图卷积利用动态权重w进行特征变换,并通过aij聚合vi的相邻顶点的表示,以更新其表示zi,其公式为
21、
22、动态拓扑共享图卷积动态地推断拓扑结构,因此具有更好的泛化能力;akij是关节点vi、vj之间的动态拓扑关系,并且取决于输入样本;关节点vi的特征被表示为xi;动态拓扑共享gc的公式为:
23、
24、其中k表示输入样本的索引,和是第k个样本的输入特征和输出特征;w为动态权重。最后,通过利用信道特定相关性q细化共享拓扑a来获得信道拓扑r∈rn×n×c′:
25、
26、其中,α为调整优化强度的可训练标量,加法是以广播的方式进行的,其中a被添加到α×q的每个频道。
27、进一步的,s4中,mixer模块主要由两个block构成,分别是joint-mlp-block和channel-mlp-block。经过通道拓扑细化图卷积空间建模后的人体骨架特征输入到mixer模块中,人体骨架特征经过格式转化后首先进行layer normalization的归一化处理,之后输入至带有残差连接的joint-mlp-block中进行关节点之间的相关性建模,后经过相同的layer normalization归一化处理后进行转置,输入至带有残差连接的channel-mlp-block中进行同一关节点的通道特征的相关性建模,最后将处理后的人体骨架特征转置、layernormalization归一化处理输出至多分支时间卷积网络中进行时间维度的特征提取。
28、进一步的,s5中,使用多分支时间卷积网络进行时间建模,所采用的多分支时间卷积网络由四分支组成:一个1×1卷积分支、一个最大池化(max-pooling)分支和两个内核为3,膨胀率分别为1和2的一维时间卷积。用单个分支处理每个特征组,将这四个分支的输出连接在一起,并由另一个1×1卷积处理,形成多分支卷积神经网络的输出。这种时间建模的处理不仅提高了时间建模能力,由于减少了每个分支的通道宽度,还节省了计算成本和参数。
29、进一步的,s6中,将通过空间建模和时间建模后提取到的姿态特征输入到全连接层进行解码,获取到单个模态数据的动作的预测结果。
30、进一步的,7中,我们将四种不同模态数据得到的结果进行加权融合,获取到模型最终的动作识别结果.数据流融合问题可以看作是一个函数优化过程,以最优融合效果为目标函数,以各个流模型为决策变量,构造基于融合的非线性规划方程。这里我们使用控制变量法。为了充分利用四个流的融合权值进行比较,我们进行了一个量化的过程,将四个权值的初始值大于0放入模型的约束部分,以实现不同流的重要性。
31、本发明提供了基于空间特征增强的人体骨架动作识别装置,包括处理器及存储介质;所述存储介质用于存储指令;所述处理器用于根据所述指令进行操作以执行所述方法的步骤。
32、本发明提供了一种设备,,包括:处理器;计算机程序;所述计算机程序被处理器时执行所述方法的步骤。
33、本发明的有益效果:本发明基于空间特征增强的人体骨架动作识别方法在不大幅增加网络模型的参数的情况下,提高了基于骨架的人体动作识别任务的准确率,并减少了网络模型的训练时间,提高网络模型的推断速度。
34、为验证本发明中空间特征增强的聚合模块的有效性,以ctr-gcn为基础网络结构,增加mixer空间聚合模块和多分支时间卷积神经网络,在ntu-rgb+d和ntu-rgb+d 120数据集的识别率如下表所示:
35、
36、
1.基于空间特征增强的人体骨架动作识别方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的基于空间特征增强的人体骨架动作识别方法,其特征在于,s1中,关节流模态数据的处理按照如下步骤:
3.根据权利要求1所述的基于空间特征增强的人体骨架动作识别方法,其特征在于,s2中,使用空间划分策略定义人体骨架关节点的邻接矩阵,将节点划分为三部分,分别为关节点本身、比关节点本身距离中心关节点更近的邻节点、当前关节点的其他邻节点;
4.根据权利要求1所述的基于空间特征增强的人体骨架动作识别方法,其特征在于,s3中,通道拓扑细化图卷积动态有效的对通道拓扑进行建模;具体来说,共享拓扑是一个参数化的邻接矩阵,作为所有通道的拓扑先验,并提供顶点之间的通用相关性。
5.根据权利要求1所述的基于空间特征增强的人体骨架动作识别方法,其特征在于,s4中,mixer模块由两个block构成,分别是joint-mlp-block和channel-mlp-block;经过通道拓扑细化图卷积空间建模后的人体骨架特征输入到mixer模块中,人体骨架特征经过格式转化后首先进行layer normalization的归一化处理,之后输入至带有残差连接的joint-mlp-block中进行关节点之间的相关性建模,后经过相同的layer normalization归一化处理后进行转置,输入至带有残差连接的channel-mlp-block中进行同一关节点的通道特征的相关性建模,最后将处理后的人体骨架特征转置、layer normalization归一化处理输出至多分支时间卷积网络中进行时间维度的特征提取。
6.根据权利要求1所述的基于空间特征增强的人体骨架动作识别方法,其特征在于,s5中,使用多分支时间卷积网络进行时间建模,所采用的多分支时间卷积网络由四分支组成:一个1×1卷积分支、一个最大池化分支和两个内核为3,膨胀率分别为1和2的一维时间卷积;用单个分支处理每个特征组,将这四个分支的输出连接在一起,并由另一个1×1卷积处理,形成多分支卷积神经网络的输出。
7.根据权利要求1所述的基于空间特征增强的人体骨架动作识别方法,其特征在于,s6中,将通过空间建模和时间建模后提取到的姿态特征输入到全连接层进行解码,获取到单个模态数据的动作的预测结果。
8.根据权利要求1所述的基于空间特征增强的人体骨架动作识别方法,其特征在于,s7中,将四种不同模态数据得到的结果进行加权融合,获取到模型最终的动作识别结果;使用控制变量法;将四个权值的初始值大于0放入模型的约束部分,以实现不同流的重要性。
9.基于空间特征增强的人体骨架动作识别装置,其特征在于,包括处理器及存储介质;所述存储介质用于存储指令;所述处理器用于根据所述指令进行操作以执行根据权利要求1至8任一项所述方法的步骤。
10.一种设备,其特征在于,包括:处理器;计算机程序;所述计算机程序被处理器执行时实现权利要求1至8任一项所述方法的步骤。
