本发明属于视频编码领域,尤其涉及一种基于人体特征紧凑表示的视频压缩方法。
背景技术:
1、近年来,基于深度学习的视频编码框架显示出了良好的发展前景。lu等人提出了首个端到端视频压缩框架dvc,用神经网络代替传统的运动估计、运动补偿、残差编码等模块,并通过率失真函数共同优化整个网络。lin等人采用多参考帧进行运动补偿和运动矢量预测,有效地消除了时间冗余。yang等人提出了一种基于学习的分层质量和循环增强视频压缩方法,压缩不同质量的视频帧,通过循环增强网络提高视频质量。hu等人将编码过程转移到特征域,使用可变形卷积估计运动偏移量。他们的多帧特征融合模块从当前帧和前一帧中提取多个特征表示,并使用可变形补偿和非局部注意机制来细化初始重构特征,从而实现更好的帧重构。habibian等人将多个帧视为一个整体,并使用3d卷积直接压缩。liu等人使用图像编码器和独立压缩每帧,并提出了一种熵模型来探讨潜在特征的时间相关性。此外,li等人将残差编码转化为条件编码,利用时间上下文优化编码器和熵模型。然而,这些方法无论是使用光流扭曲还是直接使用潜在表示来生成预测帧,都没有利用人体视频的特点进行压缩,还存在着极大的冗余,也做不到低码率下的视频传输。
2、由于神经网络的强大生成能力,可以通过极少的特征生成相对清楚的图像,将视频映射到潜在表示中,并通过变分自编码器(vaes)和生成对抗网络(gans)来进行极低码率的压缩。
3、例如wang等人提出了一种人体视频压缩方法,将关键帧转化为纹理向量,与人体骨架信息输入到生成模型直接生成重构视频。meng等人提出了一种单人监控视频压缩方法,通过将关键帧和骨架信息输入到生成网络中,之后在像素域上进行残差计算,得到最后的重构帧。然而这些方法生成的人体图像虽在人眼上观测与原视频相似,但在客观指标上与原视频存在较大差异,如果在像素域上进行残差操作则会产生较大的残差。
4、综上所述,虽然研究人员提出了一系列编码压缩方法,但是这些方法都没能充分考虑人体视频特点,因此研究一种能够针对人体视频特点从而有效压缩人体视频的方法是很有必要的。
5、对人体视频而言,人体可用传输更加高效的骨架特征来表征运动。虽然某些方法已经使用人体骨架来对视频进行压缩,但是那些方法要么不进行残差编码,要么在像素域上进行残差编码,导致在客观质量上与原视频存在较大差异,并且在像素域上产生的残差需要大量的码流传输,与其他的编码方法相比并没有显著优势。
技术实现思路
1、本发明目的在于提供一种基于人体特征紧凑表示的视频压缩方法,以解决上述的技术问题。
2、为解决上述技术问题,本发明的一种基于人体特征紧凑表示的视频压缩方法的具体技术方案如下:
3、一种基于人体特征紧凑表示的视频压缩方法,包括如下步骤:
4、步骤1:构建人体视频压缩框架;
5、使用人体骨架特征来表征运动,首先将提取出的骨架特征通过人体特征压缩算法进一步压缩冗余,与参考帧一同传输到解码端;之后恢复成原骨架,与重构的参考帧一起输入到生成网络中生成预测帧;最后输入到残差优化模块中进一步提升质量;
6、步骤2:设计人体特征压缩算法;
7、将人体骨架按关节分成六个部分以充分利用各关节的时域相关性,之后各个关节分别与前一帧的关节进行残差计算,如果残差不为0就记录残差值、关节索引以及当前帧的索引值,之后通过算术编码传输到解码端,通过残差和索引不断恢复成原骨架;
8、步骤3:特征残差编码优化;
9、首先通过特征提取器提取预测帧和原始帧的深度特征,之后计算深度特征之间的残差,输入到上下文编码器当中,在熵模型的优化下进一步降低比特率,在解码端,通过一个上下文解码器恢复成特征残差,与预测帧的特征相加后输入到帧生成器中生成最后的重构帧,生成的重构帧同时输入到时域特征提取模块以提取时域特征,时域特征被输入到上下文编解码器和熵模型中以优化整个模型。
10、进一步的,所述步骤1包括如下具体步骤:
11、首先提取第一帧i1,将第一帧帧通过图像编码器进行压缩后传输,其余帧记作i2,i3...it,通过预训练的骨架特征提取器提取各帧的骨架信息kt,使用openpose作为骨架特征提取器,提取的骨架信息通过人体特征压缩算法对骨架信息进行进一步压缩,压缩后的骨架信息使用算数编码进行传输,在解码器端,压缩后的骨架信息通过骨架恢复模块无损恢复为原骨架信息之后将压缩后的第一帧的骨架信息k1,编码帧的骨架kt输入到生成网络中生成预测帧使用patn作为生成网络,最后将编码帧it,预测帧和编码帧的骨架kt输入到特征残差优化网络中得到重构帧
12、进一步的,所述人体特征压缩算法将由骨架提取器提取出的骨架信息根据人体关节分成六个部分:头,身体,左臂,右臂,左腿和右腿。
13、进一步的,所述步骤2包括如下具体步骤:
14、首先使用骨架提取器提取视频各帧的骨架信息kt,其中t为当前帧的索引,骨架信息kt包含18个关键点,关键点索引从小到大排为:鼻子、脖子、右肩膀、右胳膊肘、右手腕、左肩膀、左胳膊肘、左手腕、右臀部、右膝盖、右脚踝、左臀部、左膝盖、左脚踝、右眼、左眼、右耳、左耳,
15、
16、其中代表第t帧下骨架信息的第i个关键点索引下的横/纵坐标,将这18个关键点按照人体关节分成头,身体,左臂,右臂,左腿和右腿六个部分,每个部分具体包含的关键点如下:头部骨架信息身体骨架信息左臂骨架信息右臂骨架信息左腿骨架信息右腿骨架信息使用解码表来恢复完整的骨架信息,解码表的构成如下:
17、codec={(index,si,ei)|index∈[0,5],si<ei}
18、其中index表示关节索引,标识当前记录对应的骨架部位,si表示相邻帧残差连续全为0段的起始帧号,ei表示相邻帧残差连续全为0段的结束帧号,每条记录(index,si,ei)表示关节索引为index的骨架信息在从第si帧到第ei帧之间的骨架信息均相等。
19、进一步的,步骤3所述时域特征获取模块首先通过卷积层和残差块组成的3个特征提取模块(extract(·))从前面已解码的特征中提取多尺度特征和
20、
21、同时,被解码的人体骨架通过3个由卷积层,正则化层,relu函数和残差块组成的骨架特征提取模块(kp_extract(·))提取多尺度的骨架特征和
22、
23、之后,提取的骨架特征通过一个sigmoid激活函数,分别与多尺度特征相乘,并通过一个cbam模块,以帮助网络更好地理解和利用输入特征的空间信息,从而更好的表示时域特征并提高网络性能:
24、
25、其中⊙表示点积操作,σ表示sigmoid激活函数,
26、之后通过一个由亚像素卷积和残差块组成的上采样模块对进行上采样,并与在通道维度进行拼接,
27、
28、在分层结构的每一层,拼接后的特征首先通过一个由卷积层和残差块组成的细化模块(refine),之后再与相加得到细化特征
29、
30、然后通过一个convlstm层使模型来捕获整个时域上的信息,通过上一帧输出的隐藏状态模型自行更新和遗忘前一帧的数据,最后,通过一个残差块(res)来获取时域特征和隐藏状态
31、
32、进一步的,所述步骤3包括如下具体步骤:
33、首先使用时域特征提取模块来获取时间上下文,将当前帧的骨架信息和前一帧解码的特征共同输入到时域特征提取模块(tfe)中来获取时域特征
34、
35、之后特征提取器ef(·)提取编码帧it和预测帧的特征ftori和ftpred,特征提取器ef(·)由两个卷积层和一个残差快组成,
36、ftori=ef(it)
37、
38、其中两个特征提取器ef(·)共享权重,之后将ftori和ftpred相减和时域特征一同输入到上下文编码器ec(·)中得到当前残差帧的潜在变量yt,
39、
40、之后通过熵模型来估计潜在表示yt的概率,然后压缩传输到解码端生成使用超先验和拉普拉斯分布的分解熵模型将潜在表示建模,将前一帧已经解码的潜在表示输入到熵模型中来丰富输入以使其更好地估计潜在表示yt的概率,
41、
42、其中的entropy(·)为熵模型,ey(·),dy(·)为压缩、解压操作。
43、进一步的,所述压缩的具体操作如下:
44、首先通过熵模型计算出潜在表示的yt的拉普拉斯分布的均值μ和尺度参数σ,之后将潜在表示yt标准化为拉普拉斯分布的形式,
45、
46、之后对标准化后的值z进行量化,得到量化后的值q,
47、q=round(z)
48、其中round(·)为量化操作,之后将量化后的值q通过算数编码压缩成比特流传输到解码端。
49、进一步的,所述解压的具体操作如下:
50、接收端接收到量化值后,通过潜在表示的yt的拉普拉斯分布的均值μ和尺度参数σ还原潜在表示
51、
52、最后将解压后的潜在表示和时域特征输入到上下文解码器dc(·)中生成残差特征与预测帧的特征ftpred相加,输入到帧生成器frame_g(·)中生成重构帧和解码的帧特征将被输入到时域特征提取模块中生成时域特征,
53、
54、本发明的一种基于人体特征紧凑表示的视频压缩方法具有以下优点:
55、本发明针对人体视频特点提出一种人体视频压缩的编码框架,利用人体骨架而非光流来表征运动,并且将残差编码操作从像素域转移到特征域。通过使用人体骨架和在特征域上进行残差编码,本发明可以在较低比特率下生成较好的重构视频质量。本发明充分利用人体各部分运动的特点,提出了一种人体特征压缩算法,将人体关节分成六个部分分别进行压缩,充分消除了人体各关节的时域冗余,极大的减少了码率消耗。本发明在特征域上进行残差优化,并引入时域特征来优化残差模块,以减小残差产生的码率。
56、综上,本发明极大提高了人体骨架信息的压缩率;能够以较低的比特流生成主观与客观质量良好的重构人体视频。
1.一种基于人体特征紧凑表示的视频压缩方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的基于人体特征紧凑表示的视频压缩方法,其特征在于,所述步骤1包括如下具体步骤:
3.根据权利要求1所述的基于人体特征紧凑表示的视频压缩方法,其特征在于,所述人体特征压缩算法将由骨架提取器提取出的骨架信息根据人体关节分成六个部分:头,身体,左臂,右臂,左腿和右腿。
4.根据权利要求1所述的基于人体特征紧凑表示的视频压缩方法,其特征在于,所述步骤2包括如下具体步骤:
5.根据权利要求1所述的基于人体特征紧凑表示的视频压缩方法,其特征在于,步骤3所述时域特征获取模块首先通过卷积层和残差块组成的3个特征提取模块(extract(·))从前面已解码的特征中提取多尺度特征
6.根据权利要求1所述的基于人体特征紧凑表示的视频压缩方法,其特征在于,所述步骤3包括如下具体步骤:
7.根据权利要求6所述的基于人体特征紧凑表示的视频压缩方法,其特征在于,所述压缩的具体操作如下:
8.根据权利要求6所述的基于人体特征紧凑表示的视频压缩方法,其特征在于,所述解压的具体操作如下: