手语识别方法、设备及可读存储介质与流程

    专利查询2025-05-29  10


    本技术涉及手语识别,尤其涉及一种手语识别方法、设备及可读存储介质。


    背景技术:

    1、手语是聋哑人士获取信息及表达信息的一种重要方式,聋哑人士通常通过手语来与他人进行沟通,这需要交流的双方都要懂得手语,而正常人学习手语需耗费大量的时间和精力,故而大部分正常人的手语水平较低,难以与聋哑人士进行交流。因此,智能化的手语识别对聋哑人的沟通具有重大意义。

    2、传统的手语识别方案中,采集到打手语者的手语视频数据后,使用深度学习模型提取手语视频中的手语特征,进而基于这些提取到的特征预测结果。然而,由于采集到手语视频数据中可能存在一些无意识的手势干扰图像帧,例如放下手的图像帧、抬起手的图像帧、空白图像帧等,导致上述的手语识别方案,手语识别结果的准确度较低。

    3、因此,如何提高手语识别结果的准确度是本技术领域亟待解决的技术问题。


    技术实现思路

    1、本技术的主要目的在于提供一种手语识别方法、设备及可读存储介质,旨在解决如何提高手语识别结果的准确度的技术问题。

    2、为实现上述目的,本技术提供一种手语识别方法,手语识别方法包括:

    3、获取待进行手语识别的视频数据,其中,所述视频数据包括多帧图像;

    4、对于每一帧图像,计算所述图像与预设基准图像之间的第一相似度,基于所述第一相似度确定所述图像对应的图像价值,其中,所述图像价值与所述第一相似度正相关,所述预设基准图像为包含有效手语内容的图像;

    5、从各所述图像中选择图像价值大于预设阈值的关键帧图像,将所述关键帧图像输入至预设的手语识别模型中得到手语识别结果。

    6、在一实施例中,基于所述第一相似度确定所述图像对应的图像价值的步骤,包括:

    7、获取所述图像对应的相邻帧图像,计算所述图像与所述相邻帧图像之间的第二相似度,其中,所述相邻帧图像为上一帧图像或下一帧图像;

    8、计算所述第一相似度与所述第二相似度的加权和值,确定所述加权和值为所述图像对应的图像价值。

    9、在一实施例中,计算所述图像与预设基准图像之间的第一相似度的步骤,包括:

    10、计算所述图像与预设基准图像之间的皮尔逊相关系数,确定所述图像与所述预设基准图像之间的皮尔逊相关系数为第一相似度。

    11、在一实施例中,获取待进行手语识别的视频数据的步骤之后,所述方法还包括:

    12、获取各所述图像依据时间顺序排列得到图像序列,确定所述图像序列的序列中间位置;

    13、选择所述图像序列中所述序列中间位置对应的图像为预设基准图像。

    14、在一实施例中,所述手语识别模型包括依次连接的输入模块、编码模块、解码模块与预测头,所述将所述关键帧图像输入至预设的手语识别模型中得到手语识别结果的步骤,包括:

    15、通过所述输入模块对所述关键帧图像进行嵌入与位置编码处理得到输入向量;

    16、将所述输入向量输入至所述编码模块中得到编码矩阵,其中,所述编码模块用于对所述输入向量进行编码处理;

    17、将所述编码矩阵输入至所述解码模块中得到解码矩阵,其中,所述解码模块用于对所述编码矩阵进行解码处理;

    18、将所述解码矩阵输入至所述预测头得到手语识别结果。

    19、在一实施例中,所述输入模块包括图像嵌入模块、关键点嵌入模块与位置编码模块,所述通过所述输入模块对所述关键帧图像进行嵌入与位置编码处理得到输入向量的步骤,包括:

    20、通过所述图像嵌入模块对所述关键帧图像进行嵌入处理得到图像向量;

    21、通过所述关键点嵌入模块提取所述关键帧图像中的关键点,并对所述关键点进行嵌入处理得到关键点向量;

    22、通过所述位置编码模块对所述图像向量与所述关键点向量进行位置编码得到输入向量,其中,所述输入向量包括图像位置编码向量与关键点位置编码向量。

    23、在一实施例中,所述编码模块包括图像编码器堆栈、关键点编码器堆栈与融合模块,所述将所述输入向量输入至所述编码模块中得到编码矩阵的步骤,包括:

    24、将所述输入向量中的图像位置编码向量输入至所述图像编码器堆栈得到图像编码矩阵;

    25、将所述输入向量中的关键点位置编码向量输入至所述关键点编码器堆栈得到关键点编码矩阵;

    26、通过所述融合模块对所述图像编码矩阵与所述关键点编码矩阵进行加权融合得到编码矩阵。

    27、在一实施例中,所述预测头包括池化层、多个正则化层与输出层,所述将所述解码矩阵输入至所述预测头得到手语识别结果的步骤,包括:

    28、将所述解码矩阵输入至所述池化层得到融合向量;

    29、将所述融合向量分别输入至各所述正则化层中得到正则化向量;

    30、将所有所述正则化向量输入至所述输出层中得到手语识别结果。

    31、此外,为实现上述目的,本技术还提供一种手语识别设备,手语识别设备包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,计算机程序配置为实现如上所述的手语识别方法的步骤。

    32、此外,为实现上述目的,本技术还提供一种可读存储介质,可读存储介质为计算机可读存储介质,计算机可读存储介质上存储有实现手语识别方法的程序,实现手语识别方法的程序被处理器执行以实现如上所述的手语识别方法的步骤。

    33、本技术还提供一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时实现如上述的手语识别方法的步骤。

    34、本技术提出的一个或多个技术方案,至少具有以下技术效果:

    35、获取待进行手语识别的视频数据,其中,视频数据包括多帧图像;对于每一帧图像,计算图像与预设基准图像之间的第一相似度,基于第一相似度确定图像对应的图像价值,其中,图像价值与第一相似度正相关,预设基准图像为包含有效手语内容的图像;从各图像中选择图像价值大于预设阈值的关键帧图像,将关键帧图像输入至预设的手语识别模型中得到手语识别结果。考虑到打手语时,主要是手指和手掌部分运动,由此,在打手语时,通常只有手指和/或手掌部分的较小区域存在区别,图像之间的相似度是较高的,而未在打手语时,手部通常是放下的与打手语时的图像相似度较低,基于此,本技术实施例中基于包含有效手语内容的预设基准图像,计算各图像与该预设基准图像之间的相似度,也即第一相似度,在基于该第一相似度评估各图像的图像价值,而图像价值与第一相似度正相关,如此评估的图像价值可有效表征各图像包含有效手语内容的概率,再从所有图像中筛选图像价值大于或等于预设阈值的关键帧图像,基于关键帧图像进行手语识别得到手语识别结果,也即从视频数据中筛选出了包含有效手语内容概率较高的高质量关键帧图像,而删除了低价值的无意义图像,从而减少了无意义图像对识别结果的干扰,进而提高了手语识别结果的准确度。并且相比于每帧图像分别与相邻帧图像计算相似度的方式,本技术实施例中每帧图像与预设基准帧图像计算相似度,可减少初始空白帧和结束空白帧(空白帧指没有实际手语含义的无意义图像帧)的影响,如相邻帧图像为空白帧时,当前帧图像与相邻帧图像之间相似度并不能有效评估当前帧图像的图像价值,进一步提高了手语识别结果的准确度。


    技术特征:

    1.一种手语识别方法,其特征在于,所述手语识别方法包括以下步骤:

    2.如权利要求1所述的手语识别方法,其特征在于,基于所述第一相似度确定所述图像对应的图像价值的步骤,包括:

    3.如权利要求1所述的手语识别方法,其特征在于,计算所述图像与预设基准图像之间的第一相似度的步骤,包括:

    4.如权利要求1所述的手语识别方法,其特征在于,获取待进行手语识别的视频数据的步骤之后,所述方法还包括:

    5.如权利要求1至4中任一项所述的手语识别方法,其特征在于,所述手语识别模型包括依次连接的输入模块、编码模块、解码模块与预测头,所述将所述关键帧图像输入至预设的手语识别模型中得到手语识别结果的步骤,包括:

    6.如权利要求5所述的手语识别方法,其特征在于,所述输入模块包括图像嵌入模块、关键点嵌入模块与位置编码模块,所述通过所述输入模块对所述关键帧图像进行嵌入与位置编码处理得到输入向量的步骤,包括:

    7.如权利要求6所述的手语识别方法,其特征在于,所述编码模块包括图像编码器堆栈、关键点编码器堆栈与融合模块,所述将所述输入向量输入至所述编码模块中得到编码矩阵的步骤,包括:

    8.如权利要求5所述的手语识别方法,其特征在于,所述预测头包括池化层、多个正则化层与输出层,所述将所述解码矩阵输入至所述预测头得到手语识别结果的步骤,包括:

    9.一种手语识别设备,其特征在于,手语识别设备包括:存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,所述计算机程序配置为实现如权利要求1至8中任一项所述的手语识别方法的步骤。

    10.一种可读存储介质,其特征在于,所述可读存储介质为计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的手语识别方法的步骤。


    技术总结
    本申请公开了一种手语识别方法、设备及可读存储介质,涉及手语识别技术领域,方法包括:获取待进行手语识别的视频数据,其中,所述视频数据包括多帧图像;对于每一帧图像,计算所述图像与预设基准图像之间的第一相似度,基于所述第一相似度确定所述图像对应的图像价值,其中,所述图像价值与所述第一相似度正相关,所述预设基准图像为包含有效手语内容的图像;从各所述图像中选择图像价值大于预设阈值的关键帧图像,将所述关键帧图像输入至预设的手语识别模型中得到手语识别结果,本申请提高了手语识别结果的准确度。

    技术研发人员:孙九鉴,朱志鹏,李昱锋,李佳明,李国鑫,史高建,杨明明,陈永富,陈曰清,李保成,张同全
    受保护的技术使用者:歌尔科技有限公司
    技术研发日:
    技术公布日:2024/11/26
    转载请注明原文地址:https://tc.8miu.com/read-28853.html

    最新回复(0)