本技术涉及图像分割,特别是涉及一种视频/图像分割网络的训练方法、分割方法及相关装置。
背景技术:
1、目前,由于视频/图像采集设备之间的扫描参数的差异较大,导致视频/图像质量和数据灰度分布存在显著差异,所以,将源域训练的分割网络应用于未见域数据时,可能会产生较大的泛化误差。
2、以分割网络用于对心脏分割为例。心脏分割对于心脏参数(如射血分数)的量化和心血管疾病的诊断至关重要。目前,主要采用自动分割的方式进行心脏分割,但是,自动分割方法面临两个主要挑战:首先,心脏超声视频信噪比低且心脏轮廓模糊,使得分割结果往往不可靠,尤其是对于心脏轮廓几乎不可见的视频帧;其次,由于医疗中心之间超声设备和扫描参数的变化较大,导致图像质量和数据灰度分布存在显著差异。所以,将源域训练的心脏分割网络应用于未见域数据时,可能会产生较大的泛化误差。
技术实现思路
1、本技术至少提供一种视频/图像分割网络的训练方法、分割方法及相关装置。
2、本技术第一方面提供一种视频/图像分割网络的训练方法,该方法包括:从目标域视频的各第一样本视频帧中,选出目标对象的第一分割形状的质量满足预设要求的至少一个第一样本视频帧,作为第二样本视频帧;其中,目标对象的第一分割形状的质量是基于目标对象的第一分割形状与第一源域视频对应的目标对象的第二分割形状的对齐程度确定的;基于各第二样本视频帧的目标对象的第一分割形状,确定目标域视频的多个第一样本视频帧的伪标签,多个第一样本视频帧的伪标签用于对视频/图像分割网络的训练。
3、因此,由于多个第一样本视频帧的伪标签,是利用目标对象的第一分割形状的质量满足预设要求的第一样本视频帧的第一分割形状确认的,所以,第一样本视频帧的伪标签能够反映出第一样本视频帧中合理的、准确的目标对象的分割形状;故,利用标注有合理的、准确的目标对象的分割形状的多个第一样本视频帧对视频/图像分割网络进行训练,能够使得视频/图像分割网络在目标域视频中具有较好的目标对象的分割性能,具有域自适应分割能力。
4、其中,在从目标域视频的各第一样本视频帧中,选出目标对象的第一分割形状的质量满足预设要求的至少一个第一样本视频帧,作为第二样本视频帧之前,视频/图像分割网络的训练方法还包括:将目标域视频对应的目标对象的各第一分割形状与第一源域视频对应的目标对象的第二分割形状对齐,得到目标对象的各第一分割形状对应的对齐分割形状;基于目标对象的各第一分割形状与对应的对齐分割形状的差异,得到目标对象的各第一分割形状对应的对齐程度。
5、其中,将目标域视频对应的目标对象的各第一分割形状与第一源域视频对应的目标对象的第二分割形状对齐,得到目标对象的各第一分割形状对应的对齐分割形状,包括:利用降噪网络对目标对象的各第一分割形状进行降噪,以将目标对象的各第一分割形状与第一源域视频对应的目标对象的第二分割形状对齐,得到目标对象的各第一分割形状对应的对齐分割形状;其中,降噪网络是利用视频/图像分割网络对第一源域视频的目标对象分割得到的第二分割形状进行训练得到,目标对象的第一分割形状是利用经预训练的视频/图像分割网络对第一样本视频帧的目标对象进行分割得到,视频/图像分割网络是利用第一源域视频进行预训练的。
6、因此,目标对象的第一分割形状可以看作是目标对象的分割概率图,由于降噪网络是利用对第一源域视频的目标对象分割得到的第二分割形状进行训练得到,所以,降噪网络能够区分目标对象的分割形状和非分割形状;故,利用降噪网络对各目标域视频的第一样本视频帧对应的目标对象的第一分割形状进行处理,能够去除属于非目标对象的分割形状的部分和/或能够重建缺失的目标对象的分割形状,以对目标域视频的第一样本视频帧进行目标对象的分割形状的重建,从而在形状级别实现域对齐。
7、其中,第一源域视频包括若干第三样本视频帧,至少一个第三样本视频帧上标注有目标对象的真实分割形状;降噪网络的训练步骤,包括:对第三样本视频帧的目标对象的第二分割形状进行噪声处理,得到目标对象的第三分割形状,其中,目标对象的第二分割形状是视频/图像分割网络对第三样本视频帧的目标对象进行分割得到;利用降噪网络对目标对象的第三分割形状进行降噪,得到目标对象的降噪分割形状;至少基于目标对象的降噪分割形状与目标对象的第二分割形状之间的第一差异,调整降噪网络的网络参数。
8、因此,利用第一源域视频对降噪网络进行训练,以使得训练完成的降噪网络能够区分目标对象的分割形状和非目标对象的分割形状,从而利用降噪网络对各目标域视频的第一样本视频帧对应的目标对象的第一分割形状进行处理,能够去除属于非目标对象的分割形状的部分,且能够重建缺失的目标对象的分割形状,以对目标域视频的第一样本视频帧进行目标对象分割形状的重建,从而在形状级别实现域对齐。
9、其中,降噪网络包括依序连接的编码器和离散化层;至少基于目标对象的降噪分割形状与目标对象的第二分割形状之间的第一差异,调整降噪网络的网络参数,包括:获取编码器的输出与离散化层对应的离散向量之间的第二差异;基于第一差异和第二差异,调整降噪网络的网络参数。
10、因此,从两方面对降噪网络进行参数调整,一方面调整降噪网络最终的输出结果-目标对象分割形状,另一方面调整降噪网络的编码器的输出,使得降噪网络的编码器的输出更逼近于离散化层的离散向量。
11、其中,目标对象的分割形状采用目标对象的分割概率图表征,目标对象的分割概率图表示样本视频帧中各个样本像素点属于目标对象的解剖结构的置信度;对第三样本视频帧的目标对象的第二分割形状进行噪声处理,得到目标对象的第三分割形状,包括:变换第三样本视频帧对应的目标对象的分割概率图中,至少一个样本像素点属于目标对象的解剖结构的置信度,得到目标对象的第三分割形状。或者,在目标对象的第二分割形状中加入至少一种类型的噪声,得到目标对象的第三分割形状;其中,至少一种类型的噪声包括点状噪声或者块状噪声中的至少一者。
12、因此,可灵活设置进行噪声处理的方式。
13、其中,预设要求包括目标对象的各第一分割形状的质量中的最大者;和/或,对齐程度的表征值为以下一者:目标对象的第一分割形状与对应的对齐分割形状之间的差值、目标对象的第一分割形状与对应的对齐分割形状之间的余弦相似度。
14、因此,通过设置预设要求包括目标对象的各第一分割形状的质量中的最大者,以从目标域视频的各第一样本视频帧中,选出目标对象的第一分割形状的质量最佳的第一样本视频帧。和/或,可灵活设置对齐程度的表征值。
15、其中,基于各第二样本视频帧的目标对象的第一分割形状,确定目标域视频的多个第一样本视频帧的伪标签,包括:将各第二样本视频帧的目标对象的第一分割形状,作为各第二样本视频帧的伪标签,并利用各第二样本视频帧的伪标签,以及除第二样本视频帧以外的其他第一样本视频帧对应的目标对象的第一分割形状与至少一个第二样本视频帧对应的目标对象的第一分割形状之间的位移变化,确定其他第一样本视频帧的伪标签。
16、因此,对于目标对象的第一分割形状的质量满足预设要求的第一样本视频帧,直接将其对应的目标对象的第一分割形状作为其对应的伪标签;对于目标对象的第一分割形状的质量不满足预设要求的第一样本视频帧,利用不同视频帧对应的目标对象的分割形状之间的位移变化,确定其对应的伪标签。
17、其中,利用各第二样本视频帧的伪标签,以及除第二样本视频帧以外的其他第一样本视频帧对应的目标对象的第一分割形状与至少一个第二样本视频帧对应的目标对象的第一分割形状之间的位移变化,确定其他第一样本视频帧的伪标签,包括:对于各其他第一样本视频帧,获取其他第一样本视频帧中的目标对象的第一分割形状与第二样本视频帧对应的目标对象的第一分割形状之间的位移变化;基于位移变化,对第二样本视频帧对应的目标对象的第一分割形状进行空间变换,得到目标对象的变换分割形状,作为其他第一样本视频帧的伪标签。
18、因此,确定其他第一样本视频帧与第二样本视频帧之间的位移变化,并基于位移变化,将第二样本视频帧对应的目标对象的第一分割形状进行空间变换,从而得到其他第一样本视频帧的伪标签。
19、其中,位移变化包括位移方向变化和位移大小变化中的至少一者。
20、因此,可灵活设置位移变化的内容。
21、其中,位移变化包括位移方向变化;获取其他第一样本视频帧中的目标对象的第一分割形状与第二样本视频帧对应的目标对象的第一分割形状之间的位移变化,包括:获取其他第一样本视频帧和第二样本视频帧在目标域视频中的位置;响应于其他第一样本视频帧的位置位于第二样本视频帧的位置之前,位移方向为从第二样本视频帧往其他第一样本视频帧的方向;响应于其他第一样本视频帧的位置位于第二样本视频帧的位置之后,位移方向为从其他第一样本视频帧往第二样本视频帧的方向。
22、因此,利用其他第一样本视频帧和第二样本视频帧在目标域视频中的位置关系,确定第二样本视频帧对应的目标对象的第一分割形状空间变换的方向。
23、其中,位移变化包括所述位移大小变化;获取其他第一样本视频帧中的目标对象的第一分割形状与第二样本视频帧对应的目标对象的第一分割形状之间的位移变化,包括:获取其他第一样本视频帧和第二样本视频帧在目标域视频中的位置;响应于其他第一样本视频帧和第二样本视频帧间隔设置,分别获取其他第一样本视频帧和第二样本视频帧之间的各相邻两个样本视频帧之间的子位移大小;其中,相邻两个样本视频帧之间的子位移大小是利用视频/图像分割网络预测得到;将各子位移大小之和,作为位移大小。
24、因此,在第二样本视频帧与其他第一样本视频帧间隔设置的情况下,第二样本视频帧与其他第一样本视频帧的位移大小,为第二样本视频帧与其他第一样本视频帧之间各相邻两个样本视频帧之间的子位移大小之和。
25、其中,在从目标域视频的各第一样本视频帧中,选出目标对象的第一分割形状的质量满足预设要求的至少一个第一样本视频帧,作为第二样本视频帧之前,分割网络的训练方法还包括:对于各第一样本视频帧,获取与第一样本视频帧对应的至少一个样本相邻视频帧;将各相邻视频帧与第一样本视频帧进行拼接,得到样本拼接视频帧;利用视频/图像分割网络对样本拼接视频帧的目标对象进行分割,得到第一样本视频对应的目标对象的第一分割形状。
26、因此,在输入分割网络之前,将第一样本视频帧与相邻的视频帧进行拼接,使得后续视频/图像分割网络基于拼接后的视频帧进行目标对象分割,保证目标对象分割的时域一致。
27、其中,多个第一样本视频帧包括除第二样本视频帧以外的其他第一样本视频帧,其他第一样本视频帧的伪标签是基于其他第一样本视频帧对应的目标对象的第一分割形状与第二样本视频帧对应的目标对象的第一分割形状之间的位移变化确定的;在将各相邻视频帧与第一样本视频帧进行拼接,得到样本拼接视频帧之后,视频/图像分割网络的训练方法还包括:利用视频/图像分割网络对样本拼接视频帧进行位移变化的预测,得到目标对象的第一分割形状与各样本相邻视频帧对应的目标对象的分割形状之间的位移变化。
28、因此,在输入视频/图像之前,将第一样本视频帧与相邻的视频帧进行拼接,使分割网络具有预测视频帧对应的目标对象的第一分割形状之间的位移变化的能力,即,使视频/图像分割网络具有目标对象追踪能力。
29、其中,视频/图像分割网络还用于预测不同视频帧对应的目标对象的分割形状之间的位移变化;至少利用多个第一样本视频帧的伪标签,对视频/图像分割网络进行训练,包括:获取多个第一样本视频帧对应的目标对象的第一分割形状与对应的伪标签之间的第三差异;以及,利用第二源域视频对视频/图像分割网络进行训练,得到目标对象分割对应的第四差异和位移变化对应的第五差异;利用第三差异、第四差异以及第五差异,对分割网络进行参数调整。
30、因此,同时利用源域视频和目标域视频中的多个第一样本视频帧以及对应的伪标签进行再训练,在保证视频/图像分割网络在源域视频的分割能力的情况下,使视频/图像分割网络具有在目标域视频的目标对象分割能力,提高了视频/图像分割网络的泛化能力。
31、其中,利用第三差异、第四差异以及第五差异,对视频/图像分割网络进行参数调整,包括:获取第三差异、第四差异以及第五差异对应的调整比例;基于第三差异、第四差异、第五差异以及对应的调整比例,对视频/图像分割网络进行参数调整。
32、因此,以一定比例基于第三差异、第四差异和第五差异对视频/图像分割网络进行参数调整,使得视频/图像分割网络能够更加关注比例高的差异。
33、其中,目标对象的第一分割形状的质量与目标对象的第一分割形状对应的对齐程度正相关;和/或,目标对象的分割形状为目标对象解剖结构形状;和/或,目标对象分割形状采用目标对象分割概率图表征,目标对象分割概率图表示样本视频帧中各个样本像素点属于目标对象结构的概率。
34、因此,可灵活设置目标对象的第一分割形状的质量与目标对象的第一分割形状对应的对齐程度支架的关联关系、目标对象分割形状和目标对象分割形状的表现形式。
35、本技术第二方面提供一种分割方法,该方法包括:获取参考域视频;利用视频/图像分割网络对参考域视频进行分割,得到参考对象分割形状;其中,视频/图像分割网络是利用上述的视频/图像分割网络的训练方法训练得到。
36、本技术第三方面提供一种视频/图像分割网络的训练装置,该装置包括选择模块和确定模块;选择模块用于从目标域视频的各第一样本视频帧中,选出目标对象的第一分割形状的质量满足预设要求的至少一个第一样本视频帧,作为第二样本视频帧;其中,目标对象的第一分割形状的质量是基于目标对象的第一分割形状与源域视频对应的目标对象的第二分割形状的对齐程度确定的;确定模块用于基于各第二样本视频帧的目标对象的第一分割形状,确定目标域视频的多个第一样本视频帧的伪标签,多个第一样本视频帧的伪标签用于对视频/图像分割网络的训练。
37、本技术第四方面提供一种分割训练装置,该装置包括获取模块和分割模块;获取模块用于获取参考域视频;分割模块用于利用视频/图像分割网络对参考域视频进行分割,得到参考对象分割形状;其中,视频/图像分割网络是利用上述的视频/图像分割网络的训练方法训练得到。
38、本技术第五方面提供一种电子设备,该电子设备包括处理器和存储器,存储器存储有程序指令,处理器用于执行程序指令以实现上述的方法。
39、本技术第六方面提供一种计算机可读存储介质,该计算机可读存储介质用于存储程序,程序指令能够被执行以实现上述的方法。
40、上述技术方案,由于多个第一样本视频帧的伪标签,是利用目标对象第一分割形状的质量满足预设要求的第一样本视频帧的第一分割形状确认的,所以,第一样本视频帧的伪标签能够反映出第一样本视频帧中合理的、准确的目标对象分割形状;故,利用标注有合理的、准确的目标对象分割形状的多个第一样本视频帧对目标对象分割网络进行训练,能够使得目标对象分割网络在目标域视频中具有较好的目标对象分割性能,具有域自适应分割能力。
1.一种视频/图像分割网络的训练方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,在所述从目标域视频的各第一样本视频帧中,选出目标对象的第一分割形状的质量满足预设要求的至少一个所述第一样本视频帧,作为第二样本视频帧之前,所述方法还包括:
3.根据权利要求2所述的方法,其特征在于,所述将所述目标域视频对应的目标对象的各第一分割形状与所述第一源域视频对应的目标对象的第二分割形状对齐,得到所述目标对象的各所述第一分割形状对应的对齐分割形状,包括:
4.根据权利要求3所述的方法,其特征在于,所述第一源域视频包括若干第三样本视频帧,至少一个所述第三样本视频帧上标注有目标对象的真实分割形状;所述降噪网络的训练步骤,包括:
5.根据权利要求4所述的方法,其特征在于,所述降噪网络包括依序连接的编码器和离散化层;所述至少基于所述目标对象的降噪分割形状与所述目标对象的第二分割形状之间的第一差异,调整所述降噪网络的网络参数,包括:
6.根据权利要求4所述的方法,其特征在于,所述目标对象的分割形状采用目标对象分割概率图表征,所述目标对象分割概率图表示样本视频帧中各个样本像素点属于目标对象解剖结构的置信度;所述对所述第三样本视频帧的目标对象的第二分割形状进行噪声处理,得到所述目标对象的第三分割形状,包括:
7.根据权利要求2所述的方法,其特征在于,所述预设要求包括所述目标对象的各所述第一分割形状的质量中的最大者;
8.根据权利要求1所述的方法,其特征在于,所述基于各所述第二样本视频帧的目标对象的第一分割形状,确定所述目标域视频的多个第一样本视频帧的伪标签,包括:
9.根据权利要求8所述的方法,其特征在于,所述利用各所述第二样本视频帧的伪标签,以及除所述第二样本视频帧以外的其他第一样本视频帧的目标对象的第一分割形状与至少一个所述第二样本视频帧的目标对象的第一分割形状之间的位移变化,确定所述其他第一样本视频帧的伪标签,包括:
10.根据权利要求9所述的方法,其特征在于,所述位移变化包括位移方向变化和位移大小变化中的至少一者。
11.根据权利要求10所述的方法,其特征在于,所述位移变化包括所述位移方向变化;所述获取所述其他第一样本视频帧中的目标对象的第一分割形状与所述第二样本视频帧的目标对象的第一分割形状之间的位移变化,包括:
12.根据权利要求10所述的方法,其特征在于,所述位移变化包括所述位移大小变化;所述获取所述其他第一样本视频帧中的目标对象的第一分割形状与所述第二样本视频帧的目标对象的第一分割形状之间的位移变化,包括:
13.根据权利要求1所述的方法,其特征在于,在所述从目标域视频的各第一样本视频帧中,选出目标对象的第一分割形状的质量满足预设要求的至少一个所述第一样本视频帧,作为第二样本视频帧之前,所述方法还包括:
14.根据权利要求13所述的方法,其特征在于,所述多个第一样本视频帧包括除所述第二样本视频帧以外的其他第一样本视频帧,所述其他第一样本视频帧的伪标签是基于其他第一样本视频帧的目标对象的第一分割形状与所述第二样本视频帧的目标对象的第一分割形状之间的位移变化确定的;在所述将各所述相邻视频帧与所述第一样本视频帧进行拼接,得到样本拼接视频帧之后,所述方法还包括:
15.根据权利要求1所述的方法,其特征在于,所述视频/图像分割网络还用于预测不同视频帧的目标对象的分割形状之间的位移变化;在所述基于各所述第二样本视频帧的目标对象的第一分割形状,确定所述目标域视频的多个第一样本视频帧的伪标签之后,所述方法还包括:
16.根据权利要求15所述的方法,其特征在于,所述利用所述第三差异、第四差异以及第五差异,对所述视频/图像分割网络进行参数调整,包括:
17.根据权利要求1所述的方法,其特征在于,所述目标对象的第一分割形状的质量与所述目标对象的第一分割形状对应的所述对齐程度正相关;
18.一种分割方法,其特征在于,所述方法包括:
19.一种视频/图像分割网络的训练装置,其特征在于,所述装置包括:
20.一种分割装置,其特征在于,所述装置包括:
21.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述存储器存储有程序指令,所述处理器用于执行所述程序指令以实现如权利要求1-18任一项所述的方法。
22.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序,所述程序指令能够被执行以实现如权利要求1-18任一项所述的方法。