本发明属于动作识别领域和长尾学习领域,具体设计一种基于夏普利值(shapleyvalue)引导数据混合的长尾骨架动作识别方法。
背景技术:
1、基于人体骨架的动作识别是指利用人体各个关节的三维坐标数据来推断和分类不同动作的技术。过去,研究主要集中在利用循环神经网络(rnn)和卷积神经网络(cnn)对骨架数据进行建模,将其视为时间序列或伪二维图像。然而,随着对人体结构拓扑关系的深入理解,基于图卷积神经网络(gcn)的方法开始受到关注,并取得了显著的性能提升。gcn能够有效地捕捉骨架数据中节点之间的关系,从而更好地理解动作的结构和上下文信息。近年来,基于transformer的模型也在动作识别领域展现出了潜力。transformer模型通过引入自注意力机制,能够捕捉骨架序列中的长期依赖关系,从而提高了动作识别的准确性和性能。
2、长尾学习是指在数据集中存在严重不平衡的情况下,使得模型学习到一个良好的表征空间,尤其是对与数量稀少的尾部类别。该场景下的困难点在于长尾分布下,模型往往倾向于更多地学习到出现频率高的类别,而对于出现频率低的类别学习不足,导致表征空间倾斜。为了解决长尾学习问题,通常采取的方法包括重新采样和重新加权。重新采样方法通过采样尾部类别或欠采样头部类别来处理数据不平衡,而重新加权方法则通过给出现频率低的类别分配更高的权重来平衡梯度流动。最近,对图像长尾学习问题的解决方法进行了大量的研究,包括数据增强、集成学习、解耦学习和对比学习等。这些方法采用更先进的技术为解决图像长尾学习问题提供了新的视角和思路。
3、但是,考虑到人体动作天然呈现出长尾分布,目前的骨架动作识别方法均基于平衡的数据集设计,导致它们在实际的长尾分布数据下出现严重性能下降;另一方面,现有长尾学习工作中主要针对图像数据,而骨架数据的长尾问题尚未得到充分探索。总体来说,长尾学习问题在骨架动作识别任务中的挑战主要包括:1)数据的空间稀疏性和紧凑性:骨架数据通常具有稀疏和紧凑的特点,缺乏背景信息,而其关键的空间运动模式则更为突出;2)额外的时序信息:骨架数据相比图片数据拥有额外的时间维度,其时序动态信息在动作识别中十分重要。这些特点使得直接将图像数据上的长尾学习方法应用于骨架数据导致次优的结果,整体上性能无法满足实际应用的需求。
技术实现思路
1、针对上述技术问题,本发明提出了一种基于夏普利值引导数据混合的长尾骨架动作识别方法,通过将尾部类别的显著性运动区域裁剪出来,得到与不同数据的混合增强结果,扩充了尾部类别的数据样本,从而促进尾部类别的决策边界学习。
2、本发明采用的技术方案如下:
3、一种基于夏普利值引导数据混合的长尾骨架动作识别方法,包括以下步骤:
4、将带有动作类别标签的人体骨架数据作为训练数据集;
5、将人体骨架数据分为左手臂、右手臂、左腿、右腿和躯干五个身体部位;通过模型预测动作类别,并基于夏普利值对该动作类别下的不同身体部位组合的显著性分数进行估计,得到不同身体部位组合的显著性估计列表;
6、采样两个人体骨架数据s1和s2,比较这两个人体骨架数据各自所属动作类别在训练数据集中的样本数量,对于其中样本数量较少的人体骨架数据s1,从显著性估计列表中获取其显著性分数,基于该显著性分数进行采样,将采样得到的身体部位组合作为待混合的身体部位;
7、将两个人体骨架数据s1和s2进行数据混合,其中将人体骨架数据s1的待混合的身体部位与人体骨架数据s2对应身体部位的剩余身体部位进行组合,得到增强后的混合数据;
8、将没有经过增强的未混合数据和增强后的混合数据分别输入到模型中,对模型进行迭代训练,分别计算交叉熵损失和任一种长尾学习的重加权损失,两种损失之和即为总损失;
9、利用训练好的模型对待预测的人体骨架数据进行动作类别预测,输出动作类别预测结果。
10、进一步地,模型采用通道感知的卷积神经网络模型ctr-gcn(channel-wisetopology refinement graph convolution network)。
11、进一步地,显著性分数的计算式如下:
12、
13、其中,u是身体部位全集,b是待估计显著性分数的身体部位组合,r是(u-b)的子集;fc(·)是模型输出的动作类别c的分数,comb(·)是计算身体部位组合数的函数,|·|是计算集合基数的操作。
14、进一步地,模型进行每轮迭代,随机挑选一个身体部位组合b并估计显著性分数然后以滑动指数平均的方式更新显著性估计列表中的显著性分数。
15、进一步地,基于该显著性分数进行采样的步骤包括:
16、对显著性分数进行l1归一化和softmax操作,式子如下:
17、
18、其中函数norm和softmax的式子为τ为温度系数,|b|为身体部位组合b中包含的骨架节点数量;
19、将上式计算得到的结果作为概率分布进行采样。
20、进一步地,交叉熵损失的计算式为:
21、
22、其中,lce为交叉熵损失,s为模型输出的不同类别的分数,si为第i个类别的分数,nc为动作类别总数,y为初始类别动作标签,ni为第i个动作类别在训练数据集中的样例数量。
23、进一步地,重加权损失的计算式为:
24、
25、其中,lbalance为重加权损失,s为模型输出的不同类别的分数,si为第i个类别的分数,nc为动作类别总数,y为混合数据的标签,nj为第j个动作类别在训练数据集中的样例数量。
26、进一步地,混合数据的标签采用动作类别的线性插值结果,用混合比例λ来作为不同动作类别的权重。
27、与现有技术相比,本发明的积极效果为:
28、1.基于显著性区域的精确混合和有效估计:利用夏普利值计算不同关节部位的显著性,保留尾部类别样本的显著性区域进行混合,使得生成的混合数据更具表示性,促进了尾部类别的决策边界学习。采用动量更新的方式在线地不断更新显著性估计结果,维护每个动作类别不同身体部位的显著性列表,确保显著性估计的实时性和准确性。
29、2.增强的数据多样性和模型优化:通过数据混合增强策略,生成了更多样化的数据样本,丰富了训练数据集,增强了模型的泛化能力。根据显著性估计结果进行归一化和softmax操作,以显著性为概率分布进行采样,确保混合数据的质量和多样性。采用balanced softmax损失对混合数据进行优化训练,结合未混合数据的交叉熵损失,使模型更好地适应长尾分布的数据,提高整体识别性能。
30、3.提高尾部类别的识别准确率:通过裁剪尾部类别的显著性运动区域并进行数据混合增强,扩充尾部类别的数据样本,显著提升了尾部类别的识别效果。
1.一种基于夏普利值引导数据混合的长尾骨架动作识别方法,其特征在于,包括以下步骤:
2.如权利要求1所述的方法,其特征在于,模型采用通道感知的卷积神经网络模型ctr-gcn。
3.如权利要求1所述的方法,其特征在于,显著性分数的计算式如下:
4.如权利要求1或3所述的方法,其特征在于,模型进行每轮迭代,随机挑选一个身体部位组合b并估计显著性分数然后以滑动指数平均的方式更新显著性估计列表中的显著性分数。
5.如权利要求1所述的方法,其特征在于,基于该显著性分数进行采样的步骤包括:
6.如权利要求1所述的方法,其特征在于,交叉熵损失的计算式为:
7.如权利要求1所述的方法,其特征在于,重加权损失的计算式为:
8.如权利要求7所述的方法,其特征在于,混合数据的标签采用动作类别的线性插值结果,用混合比例λ来作为不同动作类别的权重。
