本申请实施例涉及计算机,尤其涉及一种视频深度估计方法、装置、设备、存储介质以及程序产品。
背景技术:
1、随着计算机视觉技术的快速发展,深度估计作为计算机视觉领域的关键技术,可以用于解决现实世界中物体距离感知的问题,推动智能系统在自动驾驶、智能监控、增强现实等领域的应用。其中,深度估计涉及从图像或视频中推断出场景中物体的距离信息。随着深度学习技术的发展,深度估计在近年来取得了巨大的进步。基于深度学习的方法可以利用深度神经网络从大量数据中学习特征和模式,能够捕获图像中的语义信息,完成深度估计任务。在深度学习方法中,卷积神经网络已经成为深度估计的主要技术手段,该卷积神经网络可以通过端到端的训练从输入图像中直接学习深度信息,无需手工设计特征或者复杂的预处理步骤。
2、然而,由于图像中物体的大小、形状和遮挡等因素的影响,深度估计图的生成是一个高度非线性和多模态的问题,相关技术中采用卷积神经网络模型在处理复杂图像时性能容易受到限制,出现精度不佳问题,并且因模型的算力要求高以及存储资源占用空间较大,难以部署于移动设备,无法适用于实时业务场景,需要改进。
技术实现思路
1、本申请实施例提供了一种视频深度估计方法、装置、设备、存储介质以及程序产品,解决了相关技术中卷积神经网络模型处理复杂图像时性能受限导致精度不佳,并且因模型的算力要求高以及存储资源占用空间较大,难以部署于移动设备,无法适用于实时业务场景的问题,实现了构建的深度估计模型更好地理解场景中的语义信息,提高深度估计模型对复杂场景的理解和预测能力,提高深度估计的准确性,并且,可以降低算力以及存储资源要求,可以适用于实时业务场景,满足移动设备的部署需求。
2、第一方面,本申请实施例提供了一种视频深度估计方法,该方法包括:
3、获取训练数据集,将所述训练数据集中的图像帧输入至设置的深度估计模型以及前背景分割模型,得到所述图像帧对应的深度估计图以及前背景分割图;
4、基于所述训练数据集、所述深度估计图以及所述前背景分割图对预构建的轻量深度估计模型进行训练,所述轻量深度估计模型包括编码器以及分别与所述编码器连接的第一解码器和第二解码器,所述第一解码器用于输出深度估计结果,所述第二解码器用于输出前背景分割结果;
5、获取待处理图像帧,将所述待处理图像帧输入至训练完成的所述轻量深度估计模型,得到目标深度估计图。
6、第二方面,本申请实施例还提供了一种视频深度估计装置,该装置包括:
7、第一获取模块,配置为获取训练数据集;
8、标注模块,配置为将所述训练数据集中的图像帧输入至设置的深度估计模型以及前背景分割模型,得到所述图像帧对应的深度估计图以及前背景分割图;
9、模型训练模块,配置为基于所述训练数据集、所述深度估计图以及所述前背景分割图对预构建的轻量深度估计模型进行训练,所述轻量深度估计模型包括编码器以及分别与所述编码器连接的第一解码器和第二解码器,所述第一解码器用于输出深度估计结果,所述第二解码器用于输出前背景分割结果;
10、第二获取模块,配置为获取待处理图像帧;
11、深度估计模块,配置为将所述待处理图像帧输入至训练完成的所述轻量深度估计模型,得到目标深度估计图。
12、第三方面,本申请实施例还提供了一种视频深度估计设备,该设备包括:
13、一个或多个处理器;
14、存储装置,配置为存储一个或多个程序,
15、当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本申请实施例所述的视频深度估计方法。
16、第四方面,本申请实施例还提供了一种存储计算机可执行指令的非易失性存储介质,所述计算机可执行指令在由计算机处理器执行时配置为执行本申请实施例所述的视频深度估计方法。
17、第五方面,本申请实施例还提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序存储在计算机可读存储介质中,设备的至少一个处理器从计算机可读存储介质读取并执行计算机程序,使得设备执行本申请实施例所述的视频深度估计方法。
18、本申请实施例中,通过获取训练数据集,将训练数据集中的图像帧输入至设置的深度估计模型以及前背景分割模型,得到图像帧对应的深度估计图以及前背景分割图;基于训练数据集、深度估计图以及前背景分割图对预构建的轻量深度估计模型进行训练,其中,轻量深度估计模型包括编码器以及分别与编码器连接的第一解码器和第二解码器,第一解码器用于输出深度估计结果,第二解码器用于输出前背景分割结果;获取待处理图像帧,将待处理图像帧输入至训练完成的轻量深度估计模型,得到目标深度估计图。上述方案中,通过利用开源的深度估计模型以及前背景分割模型生成训练数据集对应的深度估计图以及前背景分割图,可以高效实现训练数据集的标注,准确得到训练数据集对应的真值标签,降低数据标注成本;通过对分别对应深度估计以及前背景分割设置有解码器的轻量深度估计模型进行训练,可以合理利用前背景分割为深度估计提供前景和背景的语义信息,使得模型更好地理解场景中的语义信息,提高深度估计模型对复杂场景的理解和预测能力,提高深度估计的准确性;并且,该实施例提供的轻量深度估计模型可以降低算力以及存储资源要求,可以适用于实时业务场景,满足移动设备的部署需求。
1.一种视频深度估计方法,其特征在于,包括:
2.根据权利要求1所述的视频深度估计方法,其特征在于,所述基于所述训练数据集、所述深度估计图以及所述前背景分割图对预构建的轻量深度估计模型进行训练,包括:
3.根据权利要求2所述的视频深度估计方法,其特征在于,在基于所述第一损失函数值、所述第二损失函数值以及预设的第一学习率对所述轻量深度估计模型的网络参数进行迭代更新,直至达到损失收敛之后,还包括:
4.根据权利要求3所述的视频深度估计方法,其特征在于,在所述基于所述第三损失函数值以及预设的第二学习率对所述轻量深度估计模型的剩余网络参数进行迭代更新,直至达到损失收敛之后,还包括:
5.根据权利要求1所述的视频深度估计方法,其特征在于,所述编码器包括多个轻量卷积模块,所述第一解码器以及所述第二解码器分别包括多个上采样模块,每个所述上采样模块包括卷积层、归一化层、激活函数层、卷积门控循环层以及上采样层。
6.根据权利要求1所述的视频深度估计方法,其特征在于,在所述获取训练数据集之前,还包括:
7.根据权利要求2所述的视频深度估计方法,其特征在于,所述损失函数包括结构相似性损失函数、绝对值损失函数、均方误差损失函数以及拉普拉斯损失函数中的至少一种,在使用两种以上的损失函数的情况下,将使用不同损失函数计算得到的结果值进行求和得到损失函数值。
8.一种视频深度估计装置,其特征在于,包括:
9.一种视频深度估计设备,所述设备包括:一个或多个处理器;存储装置,配置为存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现权利要求1-7中任一项所述的视频深度估计方法。
10.一种存储计算机可执行指令的非易失性存储介质,所述计算机可执行指令在由计算机处理器执行时配置为执行权利要求1-7中任一项所述的视频深度估计方法。
11.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7中任一项所述的视频深度估计方法。