一种面向视听事件定位的多模态可信语义通信的构建方法

    专利查询2025-12-14  5


    本发明涉及通信技术,特别涉及一种面向视听事件定位的多模态可信语义通信的构建方法。


    背景技术:

    1、随着科技的迅猛发展,移动设备和智能应用变得日益普及,极大地丰富了人们的日常生活和工作效率。这些设备和应用的广泛使用导致了无线数据流量的爆炸性增长。据国际电信联盟(itu)的数据显示,全球移动数据流量在过去几年中以指数级速度增长,预计未来几年这一趋势仍将持续。这种快速的数据流量增长对现代通信系统构成了前所未有的挑战。

    2、传统的通信系统主要依赖于比特级的数据传输,即在发射端将数据转换为比特流,然后在接收端准确恢复这些比特以重建原始数据。这一过程要求通信系统具备高质量的信道条件和较高的信噪比(snr),以确保数据传输的准确性和可靠性。然而,随着数据量的增加,传统通信系统的这些要求变得越来越难以满足。此外,传统通信系统在处理复杂环境下的数据传输时,往往难以保持高效和稳定。

    3、在多模态任务,尤其是音频-视觉事件(ave)定位任务中,传统通信系统的局限性更加明显。多模态任务通常涉及处理来自不同源(如音频和视频)的数据,并整合这些数据以获得更丰富的语义信息。例如,在安全监控、自动驾驶车辆的环境感知、以及智能医疗诊断等应用中,准确识别和定位音频和视觉事件至关重要。然而,由于物理噪声和信道干扰的存在,多模态信息在传输过程中容易受到损失和干扰,导致信息的语义丢失或错误,进而影响任务的执行和系统的性能。

    4、为了解决这些问题,需要一种新的通信范式,即从传统的比特精确性转变为语义保真度。这种范式强调直接传输和检索内容的语义,而不是单纯的比特流。语义通信能够更好地处理复杂信道条件下的数据传输,因为它关注的是信息的语义而不是具体的比特模式。这种转变要求通信系统不仅要能够处理数据的准确传输,还要能够理解和利用数据的语义内容,从而在各种环境下实现更高效、更可靠的通信。

    5、此外,多模态任务中的跨模态信息互补性和语义丰富性对于提高系统的整体性能至关重要。例如,在音频-视觉事件定位中,音频和视频数据可以相互补充,提供更全面的场景理解。音频数据可以提供事件发生的时间信息,而视频数据可以提供空间信息。通过整合这两种模态的信息,系统可以更准确地定位事件的发生位置和时间。然而,要实现这种整合,需要一种能够有效处理和利用多模态数据的通信框架。


    技术实现思路

    1、现代通信系统面临着无线数据流量快速增长带来的挑战,需要发展新的技术和方法来提高多模态语义通信的安全性和可靠性,特别是在音频-视觉事件定位等关键任务中。这不仅需要改进信道编码和解码技术,还需要开发新的语义编码和解码方法,以及能够适应复杂通信环境的信号处理技术。

    2、为了解决现有技术中存在的问题,本发明提出了一种面向视听事件定位的多模态可信语义通信的构建方法,包括以下步骤:

    3、s1:通过视听传感器获取相同时间区间的视听感知数据,一个用户持有视频数据,一个用户持有音频数据;

    4、s2:将视频和音频时间序列s分割成t个非重叠但连续的片段;分别表示为视频片段序列和音频片段序列每个片段的持续时间为一秒钟,其中t为时间片段,范围从1至t,t为常数表示,vt代表在时间片段t内的视频数据,at代表在时间片段t内的音频数据;

    5、s3:实现两个用户间语义通信的跨模态的音频引导的视觉注意力机制,实现音频指导下的视觉注意力;

    6、s4:分别对两个用户各自持有的连续同步视听片段中的视频片段和对应时间区间的音频片段进行可信信道编码;

    7、s5:实数到复数转换模块,将特征张量转换为复数表示,以应对模拟信道中数据传输的复杂性;

    8、s6:利用chan_layer解决通信生态系统中的语义信息失真问题,所述语义信息失真问题包括加性白高斯噪声、瑞利衰落和莱斯衰落;

    9、s7:借助复数域变换和信道估计方法计算信道矩阵,实现信号恢复;

    10、s8:接收器模型对通过信道传播的信号进行解码和解密,为最终的分类或预测任务做准备;

    11、s9:计算跨模态相似性并预测事件类别,进行定位。

    12、进一步地,上述s3中视觉注意力机制包括:

    13、s3.1将步骤s2中的vt和at使用vgg-19网络分别提取初始视觉特征v、初始音频特征a作为初始向量,在整个时间序列上的特征表示为音频特征和视觉特征

    14、s3.2通过物理通道将音频从持有音频用户传输到持有视频用户,并利用音频语义编码器进行编码:

    15、

    16、其中asingle为输出的结果,即经过增强处理后得到的单个音频片段;为音频特征,是处理音频特征的函数,对信号进行增强,θ,1表示可训练参数,它由一个带有c通道和7个核大小的一维卷积组成,有b个卷积块;

    17、

    18、每个块都包括一个残差单元和一个带有步长卷积的下采样层,其中核大小k是步长s的两倍,残差单元有两个卷积,内核大小为3和一个跳跃连接;

    19、s3.3将经过处理后得到的所有音频片段整合得到整合过程如下;

    20、

    21、其中,downsample(k,s)为函数,表示下采样,k为核大小,指下采样过程中使用的卷积核的尺寸;s为步长,指下采样过程中移动卷积核的步长,blocki是经过一系列操作之后的第i个块,resunit为一个残差单元包含几个卷积层,并且有一个跳跃连接以保留原始输入的信息;

    22、s3.4持有视频的用户,接收到的音频特征在单模态面向任务的解码阶段被准确恢复;将此恢复的特征用于跨模态语义编码器中,以增强视觉特征,跨模态视觉语义编码器定义为:

    23、

    24、其中是θv编码器的可训练参数,是输入的视觉特征,是处理视觉特征的函数,对信号进行增强;

    25、s3.5计算注意力权重αt:

    26、

    27、其中σ为sigmoid函数,mv、ma为视觉和音频特征投影到共享的空间所得到的投影特征,wf是可训练的参数;

    28、s3.6使用注意力权重αt对音频特征和视觉特征加权得到加权视觉特征

    29、进一步地,上述s4中可信信道编码包括:

    30、s4.1使用公钥密码学在发送方和接收方之间建立一个共享的会话密钥;

    31、s4.2使用共享的会话密钥对传输的信息进行对称加密;

    32、s4.3语义编码器持有椭圆曲线密码算法的密钥对(pk,sk),计算公式如下:

    33、xa=cea(a1;φa)

    34、a1表示输入数据为s3中加权得到的vat和接收到的音频特征cea用来提取注意力相关的特征,φa这是一个向量,表示cea中的可学习的参数;

    35、s4.4从usekey设置aes加密密钥k,使用ecc公钥对密钥k进行加密,得到密文c1,将音频消息和视频消息分别按照数据分块模型进行处理;

    36、s4.5使用密钥k和cbc模式对处理后的消息m进行aes加密,得到密文c2,根据公式h=sha-3(m)计算消息m的散列值h,得到最终的密文c=(c1,c2,h);

    37、s4.6对得到密文c使用reed-solomon编码进行编码。

    38、进一步地,上述s5中的实数到复数转换模块包括:

    39、s5.1卷积神经网络层从多模态语义中学习多样化的局部特征,其中m代表多模态集合,包括加权视觉特征vat和初始音频特征a,和分别是时间t使用lstm进行增强的视觉和音频特征的时间编码,分别是上一时刻t-1的视觉lstm的隐藏状态和单元状态;同理听觉也通过分别是上一时刻t-1的听觉lstm的隐藏状态和单元状态;

    40、s5.2将编码后以及学习后的数据重新塑形成三维张量,并将其转换为复数形式,即fcomplex=realtocomplex(fcnn)。

    41、进一步地,上述s6解决通信生态系统中的语义信息失真问题包括:

    42、s6.1进行信道模拟,awgn信道:为输入信号的实部和虚部分别生成高斯噪声,将该高斯噪声加到输入信号上;设置信道矩阵i为单位矩阵,表示无失真信道;rayleigh衰落信道:生成一个复数信道矩阵h并将其应用于输入信号以形成输出信号y;计算信道矩阵h的共轭转置hh和外积hhh,rician衰落信道:基于视距和非视距分量构建信道矩阵h并将其应用于信号以产生输出y;

    43、s6.2 rayleigh衰落信道模拟:生成一个复数信道矩阵h并将其应用于输入信号以形成输出信号y;计算信道矩阵h的共轭转置hh和外积hhh;

    44、s6.3 rician衰落信道模拟:基于视距和非视距分量构建信道矩阵h并将其应用于信号以产生输出y。

    45、进一步地,上述s7包括:

    46、s7.1将接收到的信号向量定义为y,发送的信号向量定义为x,信道矩阵定义为h,加性白高斯噪声向量定义为n;接收信号可以表示为:y=hx+n;

    47、s7.2信号检测以及信号恢复:采用零迫最小均方误差检测器消除多路径干扰、减少噪声放大;zf-lmmse检测器目的是找到一个检测矩阵w,使得输出接近真实的发送信号zf-lmmse检测器的检测可以示为:

    48、

    49、其中hh是信道矩阵h的共轭转置,是噪声的方差,是发送信号的方差;i是单位矩阵。

    50、进一步地,上述s8包括以下内容:

    51、s8.1在信号恢复及信号检测之后,估计的复信号通过可信解码器进行rs解码,并将数据转换为音频和视觉特征信息;

    52、s8.2语义解码器恢复aes加密的消息c,

    53、c1=first 160bits of c

    54、将前160位比特作为c1,提取密文c的最后128位作为h,提取密文c的中间剩余位作为c2;使用ecc私钥对其解密得到解密后的消息m;

    55、s8.3利用结合的音频、视觉语义信息,采用正样本传播网络通过筛选样本的方式,剔除负样本,完成语义解码得到解码后的音频和视觉特征分别为ae和ve。

    56、进一步地,上述s9包括:

    57、s9.1解码后得到的音频特征通过两个全连接层进行处理得到ae;解码后得到的视觉特征通过两个conv2d块进行处理得到ve;同时计算余弦相似度

    58、s9.2采用共享全连接层的方式进行特征融合,完成事件预测

    59、f=relu(w·[ae;ve]+b)

    60、其中,w是权重矩阵,b是偏置向量,f为预测的结果;

    61、s9.3定位事件发生的位置,确定音频事件在视频帧中的位置定位公式为:

    62、

    63、其中l表示事件的定位结果,p是所有可能的位置集合,将具有最高余弦相似度得分的位置作为事件的发生位置。

    64、本发明的有益技术效果如下:

    65、1、设计了一种面向视听事件定位的多模态可信语义通信的构建方法,通过可靠性信道编码器和解码器实现可靠的信息传输。

    66、2、设计了一个双层编码系统,通过在传统信道编码器外增加一层纠错码,可以二次校正可能由传统编解码对引入的小权重误差,确保输出信息的绝对保真度。有了可靠的信道编码器和解码器的帮助,可以确保编码器输入的信息与解码器输出的信息完全一致,为发送方传输密文和接收方随后的解密奠定了基础。

    67、3、采用了混合加密的概念来实现语义信息的安全传输。首先利用公钥密码学原理在发送方和接收方之间建立一个共享的安全会话密钥。然后,使用这个会话密钥对要传输的信息进行对称加密。这种方法结合了公钥和对称密钥密码学的优势,前者便于密钥分发,后者则提供了数据加密的效率和速度。最终得到了一个强大的安全通信框架,能够在潜在的敌对网络中保持通信的机密性和完整性。


    技术特征:

    1.一种面向视听事件定位的多模态可信语义通信的构建方法,其特征在于,包括以下步骤:

    2.如权利要求1所述的一种面向视听事件定位的多模态可信语义通信的构建方法,其特征在于,所述s3中视觉注意力机制包括:

    3.如权利要求1所述的一种面向视听事件定位的多模态可信语义通信的构建方法,其特征在于,所述s4中可信信道编码包括:

    4.如权利要求1所述的一种面向视听事件定位的多模态可信语义通信的构建方法,其特征在于,所述s5中的实数到复数转换模块包括:

    5.如权利要求1所述的一种面向视听事件定位的多模态可信语义通信的构建方法,其特征在于,所述s6解决通信生态系统中的语义信息失真问题包括:

    6.如权利要求1所述的一种面向视听事件定位的多模态可信语义通信的构建方法,其特征在于,所述s7包括:

    7.如权利要求1所述的一种面向视听事件定位的多模态可信语义通信的构建方法,其特征在于,所述s8包括以下内容:

    8.如权利要求1所述的一种面向视听事件定位的多模态可信语义通信的构建方法,其特征在于,所述s9包括:


    技术总结
    本发明涉及通信技术,特别涉及一种面向视听事件定位的多模态可信语义通信的构建方法,旨在提高音频‑视觉事件(AVE)定位任务的安全性和可靠性。本发明通过先进的语义编码和信道编码技术,有效保护数据在传输过程中的完整性和隐私。通过模拟真实世界的信道条件和采用Reed‑Solomon编码以及AES加密技术,显著提高了数据传输的准确性和可靠性。

    技术研发人员:李元第,向哲,周祥云
    受保护的技术使用者:江苏大学
    技术研发日:
    技术公布日:2024/11/26
    转载请注明原文地址:https://tc.8miu.com/read-32723.html

    最新回复(0)