一种应对多变场景的跨模态信源信道联合编解码方法

专利查询2025-04-13 26

本发明涉及跨模态图像信号重建，具体为一种应对多变场景的跨模态信源信道联合编解码方法。

背景技术：

1、随着无线通信技术的发展以及人们在音频、视频传统多媒体业务上获得满足后，将进一步追求多感官沉浸式的体验，那么集成音频、视频和触觉信号的多模态服务逐步会成为各种场景(远程操作、在线教育、电子健康、数字孪生)中的主流。例如，在远程教育场景中，集成触觉感知与反馈的音视频服务可以解决远程实践性教学无法有效展开的问题，提升了学生学习效果以及沉浸感学习体验。在虚拟世界交互中，触觉感知可以给用户带来更加拟真的互动体验。

2、然而，由于多模态业务中，音视频和触觉的传输需求存在显著差异，对于前者，需要满足高吞吐量，而且触觉对于低延迟和高可靠性更为敏感，传统的音视频通信以及触觉通信无法满足需求。基于此，跨模态通信应运而生。跨模态通信充分利用模态间的潜在相关性和语义的公共信息，建立通用的跨模态流调度方案，并借助ai方法实现了高效的多模态流、处理和恢复。其在远程针灸教学、遥操作、远程咽拭子等应用场景中也取得了初步效果。

3、而由于需要传输从跨模态信号中提取出的融合特征，因此对传输系统提出了更高的要求。最近的研究表明transformer模型展现出了强大的语义处理能力，尤其在长文本语义传输方面有着显著的成果。其次隐扩散模型是备受关注的一种技术，它在文本-图像生成任务上取得了卓越的成功。而现有跨模态传输面临图像丢失的情况，因此需求一种触觉-图像生成的方法。最后，针对不同的跨模态通信任务和环境，往往会导致额外的模型训练成本。综上有必要设计一种跨模态通信中多变场景下的图像重建质量提升的信源信道联合编解码方法。

技术实现思路

1、鉴于上述存在的问题，提出了本发明。

2、因此，本发明解决的技术问题是：跨模态业务中，音视频和触觉的传输需求存在显著差异。由于跨模态传输的特殊性，会出现某一模态信号丢失的情况，对传输系统提出了更高的要求。3、不同的跨模态通信任务和场景，往往会导致额外的模型训练成本。

3、为解决上述技术问题，本发明提供如下技术方案：一种应对多变场景的跨模态信源信道联合编解码方法，包括：

4、针对图像信号与触觉信号同时传输的场景，基于跨模态信源编码器最大化系统容量并最小化语义错误；

5、考虑跨模态通信下图像信号丢失的场景，设计基于隐扩散模型的触觉-图像生成的跨模态信源编解码优化方案；

6、针对不同的通信任务和信道环境，采用迁移学习优化模型的泛化能力，并加速模型的训练过程。

7、作为本发明所述的信源信道联合编解码方法的一种优选方案，其中：所述跨模态信源编码器包括触觉特征提取模块、图像特征提取模块以及模态融合模块；

8、所述触觉特征提取模块与所述图像特征提取模块在各个模态内部提取特征；

9、当分别获得图像和触觉信号的特征后，沿着通道维度拼接在一起，并输入到模态融合模块进行融合，通过分类任务进行训练，损失函数表示为，

10、

11、其中，表示分别经过触觉特征提取网络图像特征提取以及模态融合输出的图像特征，触觉特征以及融合特征，yj表示对象的标签，分别表示触觉特征提取网络图像特征提取模态融合以及跨模态信源编码器集成网络的参数；

12、通过跨模态信源解码器在接收端，需要从融合特征中重建出相应的图像信号；

13、采用wasserstein生成对抗网络实现图像重建，鉴别器d采用patchgan的设计；

14、生成器g将融合特征生成为图像鉴别器d负责区分真实图像v和生成的图像训练过程为d和g对抗的过程，损失函数表示为，

15、

16、

17、其中，～u[0,1]。

18、作为本发明所述的信源信道联合编解码方法的一种优选方案，其中：设计transformer的编码器，编码器包含若干个相同的层，每个层都由多头自注意力子层和基于位置的前馈网络子层组成，且每个子层都使用了残差连接层和层规范化；

19、多头自注意力层采用缩放点积模型来计算自注意力得分，自注意力计算时取q、k、v相同；通过h个不同的线性变换对q、k、v进行投影，将不同表示子空间的自注意力得分拼接起来可得到最终的注意力得分；

20、基于位置的前馈网络对序列中的所有位置的表示进行非线性变换，通过一个两层的全连接层，第一层的激活函数为relu，第二层为线性激活函数，表示为，

21、ffnout＝max(0,xw1+b1)w2+b2，

22、其中，x为上一步得到的融合特征向量，w1、w2、b1和b2都为前馈网络中可学习的参数，ffnout为前馈网络输出；

23、所述残差连接层使网络在更新迭代的过程中仅用于当前差异的部分；

24、归一化层将每一层神经元的输入都规范化为相同的均值方差，加速模型收敛；

25、所述子层的计算过程表示为，

26、sub_layer_output＝layernorm(x+sublayer(x))，

27、设计transformer的解码器，解码器在多头自注意力子层和前馈网络子层中间加入了编码器-解码器注意力子层；

28、将信道建模为神经网络层表示编码后的融合特征经过信道传输的过程，考虑加性高斯白噪声信道和瑞利慢衰落信道；

29、在加性高斯白噪声信道下，信道的传输函数可以表示为，

30、y＝z+n

31、其中，z为信道传输符号，n为信道噪声，是独立同分布的，并且σ2是平均噪声功率；

32、信道的信噪比为通过改变σ2来改变信道的信噪比；

33、瑞利慢衰落信道的传输函数为，

34、y＝hz+n

35、其中，h为信道增益，n为信道噪声，h和n分别服从参数为和的不同的正态分布。

36、作为本发明所述的信源信道联合编解码方法的一种优选方案，其中：所述跨模态信源编解码优化方案包括将图像信号由像素域映射到特征域；

37、对于一个给定在像素域中的图像x,利用编码器将x编码为隐变量特征利用解码器从特征空间中重建图像，表示为，

38、

39、其中，z∈rh×w×c。

40、作为本发明所述的信源信道联合编解码方法的一种优选方案，其中：对图像特征在特征域进行加噪与去噪的学习过程；

41、对于前向加噪过程，定义一个前向扩散过程，表示为，

42、

43、在经过前向加噪过程后，逆转q(xt|xt-1)过程获得重新创建的真实样本xt；

44、设计u-net模型学习近似条件概率。

45、作为本发明所述的信源信道联合编解码方法的一种优选方案，其中：所述设计u-net模型学习近似条件概率包括引入cross attention模块；

46、所述cross attention是一种多头注意力机制，建立两个不同输入序列之间的关联，并将其中一个序列的信息传递给另一个序列，通过cross attention模块，u-net模型将带噪声图像特征矩阵的某一部分与触觉特征标签的特定信息进行关联；

47、将触觉条件数据y转化为模型内部的触觉特征表达将τθ(y通过cross attention模块将其映射到unet模型的中间层与图像信息进行融合交互，表示为

48、

49、其中，表示隐变量特征z经过前向加噪过程后进入unet网络前的过程操作，τθ(y)表示对应的触觉特征信息，是三个可训练的参数投影矩阵；

50、计算注意力权重，并进行加权融合，表示为，

51、

52、其中，d代表查询向量q,键向量k的维度，代表注意力权重。

53、作为本发明所述的信源信道联合编解码方法的一种优选方案，其中：得到触觉特征与图像特征之间的交互信息，并融合到图像特征中，损失函数表示为，

54、

55、其中，∈代表未进行加噪的原始图像特征，∈θ(zt,t,τθ(y))代表unet网络输出；

56、采用fid参数指标对图像生成进行指导约束，表示为，

57、

58、其中，tr表示矩阵的迹，x和g表示真实的图片和生成的图像，μ表示均值，σ是协方差矩阵；

59、总损失函数表示为，

60、lhvldm＝lc_ldm+lfid(x,g)。

61、作为本发明所述的信源信道联合编解码方法的一种优选方案，其中：所述采用迁移学习优化模型的泛化能力，并加速模型的训练过程包括针对图像信号与触觉信号同时传输的场景规定第一传输任务和第二传输任务；所述第一传输任务是需求传输图像信号与触觉信号的融合特征；所述第二传输任务是仅触觉信号特征进行传输；

62、加载面向第一传输任务的预训练好的transformer编码器cα(·)，解码器权重；输入面向第二传输任务所需的特征数据集d；冻结cα(·)，的第三层网络参数；重新训练第一层与第二层网络参数cα1、2(·)，获得新transformer第一与第二层编码器参数；同时跨模态通信还会面临不同的信道信噪比变化；

63、输入预训练好的transformer编码器模型cα(·)，解码器不同的信道信噪比参数n1；冻结cα(·)，的第一、二层网络参数；重新训练第三层网络cα3(·)，获得新训练的网络cα3(·)，参数。

64、一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如上所述信源信道联合编解码方法的步骤。

65、一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述信源信道联合编解码方法的步骤。

66、本发明的有益效果：本发明提供的信源信道联合编解码方法降低网络中的功耗，使用适应度函数测量了云网络和服务器(主机)之间的负载平衡，将负载平衡问题转换为优化问题，从而能够适用于处理资源优化。使用粒子群的结果作为遗传算法的初始种群，本发明在执行成本、负载平衡和完成时间方面都取得更加良好的效果。

技术特征：

1.一种应对多变场景的跨模态信源信道联合编解码方法，其特征在于，包括：

2.如权利要求1所述的信源信道联合编解码方法，其特征在于：所述跨模态信源编码器包括触觉特征提取模块、图像特征提取模块以及模态融合模块；

3.如权利要求2所述的信源信道联合编解码方法，其特征在于：设计transformer的编码器，编码器包含若干个相同的层，每个层都由多头自注意力子层和基于位置的前馈网络子层组成，且每个子层都使用了残差连接层和层规范化；

4.如权利要求3所述的信源信道联合编解码方法，其特征在于：所述跨模态信源编解码优化方案包括将图像信号由像素域映射到特征域；

5.如权利要求4所述的信源信道联合编解码方法，其特征在于：对图像特征在特征域进行加噪与去噪的学习过程；

6.如权利要求5所述的信源信道联合编解码方法，其特征在于：所述设计u-net模型学习近似条件概率包括引入cross attention模块；

7.如权利要求6所述的信源信道联合编解码方法，其特征在于：得到触觉特征与图像特征之间的交互信息，并融合到图像特征中，损失函数表示为，

8.如权利要求7所述的信源信道联合编解码方法，其特征在于：所述采用迁移学习优化模型的泛化能力，并加速模型的训练过程包括针对图像信号与触觉信号同时传输的场景规定第一传输任务和第二传输任务；所述第一传输任务是需求传输图像信号与触觉信号的融合特征；所述第二传输任务是仅触觉信号特征进行传输；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的信源信道联合编解码方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的信源信道联合编解码方法的步骤。

技术总结
本发明公开了一种应对多变场景的跨模态信源信道联合编解码方法，涉及跨模态图像信号重建技术领域，包括：首先设计于Transformer编码器的跨模态信道编解码优化方案，实现信道编码器与信道解码器的性能提升与鲁棒性。其次设计基于隐扩散模型的触觉‑图像生成的跨模态信源编解码优化方案，实现图像信号丢失场景下，利用触觉信息指导图像生成；最后引入迁移学习技术，降低了系统面对多变跨模态通信场景例如多变信道信噪比，不同传输任务等导致的额外训练成本。本发明提供的信源信道联合编解码方法能够在跨模态通信多变场景下解决了接收端无法很好完成图像重建以及多变信道环境和场景导致的额外模型训练成本。

技术研发人员：魏昕,杨镇宇,张喆,周亮,刘潇
受保护的技术使用者：南京邮电大学
技术研发日：
技术公布日：2024/11/26

转载请注明原文地址:https://tc.8miu.com/read-27498.html

专利

最新回复(0)