一种基于视觉智能的多人场景下的跌倒检测方法与系统与流程

    专利查询2025-04-21  11


    本技术涉及行为检测的,尤其是涉及一种基于视觉智能的多人场景下的跌倒检测方法与系统。


    背景技术:

    1、随着我国进入老龄化社会,养老问题日趋严峻。老年人的各项身体机能指标下降,活动能力降低,特别是平衡力、反应能力和协同能力的不足可能造成意外跌倒情况发生。当老人发生跌倒后,如果没有获得及时的援助甚至可能因此身亡。因此,家庭或者其他环境中针对老人的跌倒检测是计算机视觉和机器学习领域中一个很有意义的研究问题。

    2、在跌倒检测技术领域,目前的方法主要基于深度学习和计算机视觉,通过视频分析来自动识别跌倒事件。这些技术方案各有侧重,包括使用深度学习进行人体关键点检测并结合支持向量机进行分类、采用多模态时空骨骼动力学特征融合以及基于bat-gcn模型的行为分类。这些方法能够在一定程度上有效识别和分类跌倒行为,但是这些方法主要应用在简单场景和单一人物的情境下。

    3、目前,相关的技术对于复杂背景和遮挡情况的适应性不强,尤其是在多人场景下,关键点检测的准确性和动态变化的捕捉能力受限,导致跌倒检测的准确率下降。其次,虽然某些方法尝试通过融合时空特征来改善检测性能,但仍难以完全解决遮挡和多人识别的问题,这些局限性减少了这些技术在实际应用中的可行性和鲁棒性。

    4、所以,如何在公园、运动场、老年活动中心等公共场合中的多人场景下实现跌倒检测,是当前需要解决的问题。


    技术实现思路

    1、为了提高跌倒检测在多人场景下的准确度,本技术提供了一种基于视觉智能的多人场景下的跌倒检测方法与系统。

    2、在本技术的第一方面,提供了一种基于视觉智能的多人场景下的跌倒检测方法。该方法包括:

    3、获取待检测影像,待检测影像表示需要进行跌倒检测的视频和/或图像;

    4、识别待检测影像中的不同个体,确定个体检测影像,个体检测影像中包括一个待检测个体;根据人体网格重建模型,对个体检测影像进行网格重建,得到网格重建影像;

    5、将网格重建影像输入至预设的跌倒检测模型,得到待检测影像对应的检测结果,检测结果用于反映个体检测影像中的待检测个体是否跌倒。

    6、由以上技术方案可知,通过识别待检测影像中的不同个体,将待检测影像中的多个待检测个体分离出来得到个体检测影像,再分别对个体检测影像进行网格重建,得到网格重建影像,再根据跌倒检测模型得到待检测影像对应的检测结果,实现在多人场景下的跌倒检测,同时提高了在多人场景下跌倒检测的准确度。

    7、在一种可能的实现方式中,待检测影像通过以下方式得到:

    8、获取初始影像,初始影像表示原始的视频和/或图像;

    9、根据视频的帧率,对视频进行采样,得到中间影像;

    10、调整中间影像的格式、编码、分辨率和帧率,得到待检测影像。

    11、在一种可能的实现方式中,人体网格重建模型通过以下方式确定:

    12、获取影像训练数据集,影像训练数据集中包括多个视频和/或图像;

    13、根据每个视频的帧率,对视频进行采样,得到人像图像数据;

    14、根据人像图像数据对预设的重建模型进行训练,得到人体网格重建模型,人体网格重建模型用于将人像图像数据转换为二维投影图像。

    15、在一种可能的实现方式中,根据人像图像数据对预设的重建模型进行训练,得到人体网格重建模型,包括:

    16、根据图像编码器,对人像图像数据进行卷积操作,得到人体特征图;

    17、根据人体特征图的特征向量和初始参数,确定人体网格重建模型的预测参数,初始参数用于反映人像图像数据的平均情况;

    18、根据参数回归器和预测参数,得到参数回归器的损失函数;

    19、根据参数回归器的损失函数,确定人体网格重建模型。

    20、在一种可能的实现方式中,参数回归器的损失函数通过以下方式确定:

    21、

    22、其中,lreg表示参数回归器的损失函数,j表示人像图像数据中的3d关节,表示3d关节的真实值,k表示将j投影到图像坐标系后的2d关键点;表示2d关键点的真实值,θ表示预测参数,表示初始参数的真实值,‖·‖表示平方l2范数,表示2d关键点的误差,表示3d关节的误差,表示预测参数的误差,λ2d表示2d关键点的误差的权重系数,λ3d表示3d关节的误差的权重系数,λpara表示预测参数的误差的权重系数。

    23、在一种可能的实现方式中,跌倒检测模型通过以下方式确定:

    24、获取跌倒影像训练数据集,跌倒影像训练数据集包括多个影像;

    25、将跌倒影像训练数据集输入至人体网格重建模型中,得到影像重建数据集;

    26、根据影像重建数据集,对预训练视觉语言模型进行优化,得到跌倒检测模型。

    27、在一种可能的实现方式中,预训练视觉语言模型包括图像编码器和文本编码器,图像编码器用于将输入的图像转换为特征向量,文本编码器用于将自然语言文本转换为特征向量;

    28、根据影像重建数据集,对预训练视觉语言模型进行优化,得到跌倒检测模型,包括:

    29、将每个影像重建数据集中的影像重建数据输入至深度学习模型中,得到影像特征向量;

    30、对影响重建数据集中的影像重建数据的分类信息进行切分,得到文本嵌入向量;

    31、计算影像特征向量和文本嵌入向量的余弦相似度;

    32、根据交叉熵目标函数和余弦相似度,调整预训练视觉语言模型,得到跌倒检测模型。

    33、在一种可能的实现方式中,交叉熵目标函数通过以下方式确定:

    34、

    35、其中,vi表示第i个影像重建数据的影像特征向量,ti表示第i个影像重建数据的文本嵌入向量,τ表示温度系数,sim(·)表示余弦相似度,exp(·)表示自然指数函数,log(·)表示自然对数函数。

    36、在一种可能的实现方式中,人体网格重建模型为smpl模型。

    37、在本技术的第二方面,提供了一种基于视觉智能的多人场景下的跌倒检测系统。该系统包括:

    38、数据获取模块,用于获取待检测影像,待检测影像表示需要进行跌倒检测的视频和/或图像;个体识别模块,用于识别待检测影像中的不同个体,确定个体检测影像,个体检测影像中包括一个待检测个体;

    39、人体重建模块,用于根据人体网格重建模型,对个体检测影像进行网格重建,得到网格重建影像;

    40、跌倒检测模块,用于将网格重建影像输入至预设的跌倒检测模型,得到待检测影像对应的检测结果,检测结果用于反映个体检测影像中的待检测个体是否跌倒。

    41、综上所述,本技术包括至少一种有益技术效果:

    42、通过识别待检测影像中的不同个体,将待检测影像中的多个待检测个体分离出来得到个体检测影像,再分别对个体检测影像进行网格重建,得到网格重建影像,再根据跌倒检测模型得到待检测影像对应的检测结果,实现在多人场景下的跌倒检测,同时提高了在多人场景下跌倒检测的准确度。


    技术特征:

    1.一种基于视觉智能的多人场景下的跌倒检测方法,其特征在于,包括:

    2.根据权利要求1所述的基于视觉智能的多人场景下的跌倒检测方法,其特征在于,所述待检测影像通过以下方式得到:

    3.根据权利要求1所述的基于视觉智能的多人场景下的跌倒检测方法,其特征在于,所述人体网格重建模型通过以下方式确定:

    4.根据权利要求3所述的基于视觉智能的多人场景下的跌倒检测方法,其特征在于,所述根据所述人像图像数据对预设的重建模型进行训练,得到人体网格重建模型,包括:

    5.根据权利要求4所述的基于视觉智能的多人场景下的跌倒检测方法,其特征在于,所述参数回归器的损失函数通过以下方式确定:

    6.根据权利要求1所述的基于视觉智能的多人场景下的跌倒检测方法,其特征在于,所述跌倒检测模型通过以下方式确定:

    7.根据权利要求6所述的基于视觉智能的多人场景下的跌倒检测方法,其特征在于,所述预训练视觉语言模型包括图像编码器和文本编码器,所述图像编码器用于将输入的图像转换为特征向量,所述文本编码器用于将自然语言文本转换为特征向量;

    8.根据权利要求7所述的基于视觉智能的多人场景下的跌倒检测方法,其特征在于,所述交叉熵目标函数通过以下方式确定:

    9.根据权利要求1所述的基于视觉智能的多人场景下的跌倒检测方法,其特征在于,所述人体网格重建模型为smpl模型。

    10.一种基于视觉智能的多人场景下的跌倒检测系统,其特征在于,包括:


    技术总结
    本申请涉及一种基于视觉智能的多人场景下的跌倒检测方法与系统,属于行为检测的技术领域,方法包括获取待检测影像,待检测影像表示需要进行跌倒检测的视频和/或图像;识别待检测影像中的不同个体,确定个体检测影像,个体检测影像中包括一个待检测个体;根据人体网格重建模型,对个体检测影像进行网格重建,得到网格重建影像;将网格重建影像输入至预设的跌倒检测模型,得到待检测影像对应的检测结果,检测结果用于反映个体检测影像中的待检测个体是否跌倒。本申请具有提高在多人场景下跌倒检测准确率的效果。

    技术研发人员:王智伟,周凡,于洪志,林格
    受保护的技术使用者:中邮时代电讯科技有限公司
    技术研发日:
    技术公布日:2024/11/26
    转载请注明原文地址:https://tc.8miu.com/read-27761.html

    最新回复(0)