基于Q学习的水下无人集群编队时分-空分多址接入协议

    专利查询2025-12-11  10


    本发明涉及水下无人集群编队,尤其是涉及一种基于q学习的水下无人集群编队时分-空分多址接入协议。


    背景技术:

    1、随着自主式水下潜器(auv)技术日渐成熟,多auv以集群的形式互相协作执行任务成为发展的必然方向。水下无人集群编队(以下简称“auv集群编队”)具有机动性强、活动范围大、作业效率高等特点,可承担复杂的海洋资源勘探、侦查监视和反潜等不同任务。在水下数据搜集任务中,auv集群编队的多址接入(mac)协议优化设计至关重要。

    2、auv节点配备水声传感器节点,在各个工作阶段中,集群编队组网面临传播延迟长、海洋环境时空不确定性等特点,为mac协议的设计带来了极大挑战。m.liu等人提出一种基于调度的自适应广播多址接入(ab-mac)协议,以提高auv之间信息交换的及时性和可靠性,采用不完全集中的方式,通过控制节点根据更新的网络拓扑安排所有节点的传输,从而避免数据包碰撞并最小化帧长度。t.qiu等人提出一种用于多auv声学通信网络的最优广播调度算法,利用auv的位置信息调整广播顺序和时间表,以实现在当前节点分布下广播网络中可能的最短无冲突广播周期,获得了比传统时分多址协议更短的广播周期和更高的信道利用率。然而,单个时隙中广播通信的形式仅允许传输单个数据包,效率较低。m.rahmati提出了一种基于概率的空间分割多址接入(psdma)方法的mac协议,使用定向换能器进行多址接入,通过两步估计法(粗略估计和无迹卡尔曼滤波器)来优化发射天线的波束宽度以实现auv间的通信,有效提高了网络吞吐量,但波束宽度优化的复杂度相对较高。

    3、综上所述,目前针对auv集群编队的mac协议研究,鲜见充分利用定向收发基阵优势、结合强化学习中的q学习技术对波束角度进行优化的相关研究,仍难以适应动态海洋环境,网络吞吐量和鲁棒性有待进一步提高。


    技术实现思路

    1、本发明的目的在于针对auv集群在编队初始化和航行阶段的接入需求,利用定向收发基阵的优势,分别采用时分多址和空分多址接入协议,以提高网络的吞吐量和鲁棒性;此外,本发明引入q学习技术,动态调整空分多址接入协议的波束角度,以适应海洋环境的动态变化;本发明能够提供一种适用于auv集群编队的高吞吐量、高鲁棒性的动态mac协议。

    2、本发明所述基于q学习的水下无人集群编队时分-空分多址接入协议,包括以下步骤:

    3、1)auv集群编队场景设置:

    4、考虑一个auv集群编队,包含一个主节点auv(以下简称“主节点”)和n个从节点auv(以下简称“从节点”);各节点的最大传输范围相等,表示为r;每个从节点有一个独立的编号n(n=1,2,…,n);在auv集群编队的工作过程中,从节点负责感知海洋环境中的信息,并将其传输给主节点;主节点位于编队中心位置,负责发送编队控制指令以及搜集从节点感知到的信息数据;

    5、各主节点和从节点均配备1个定向收发基阵和m路收发机,m≥n,定向发射基阵含k个波束(k=β·m,即,每路收发机对应β个波束),记某路收发机为收发机m(m=1,2,…,m),其对应波束分别记作波束(k-β+1),(k-β+2),(k-β+3),…,k,其中k=β·m;收发机工作时,为抑制其他方向的干扰,将根据需要激活其中一个波束;定向发射基阵根据需要切换全向工作模式和定向工作模式:全向工作模式可用于收集外界信息和广播编队控制信息,耗时较长且吞吐量较低;定向工作模式能够有效抑制波束外方向的干扰,能同时接收多个节点的信息,吞吐量大;工作模式的切换方式如步骤2)和步骤3)所示;实际设计中,方便起见可取m=n,即主节点的收发机数量与从节点数量相等,最多可实现主节点同时向n个从节点定向发射和接收不同数据的功能;

    6、2)auv集群编队初始化阶段mac协议:

    7、在auv集群编队初始化阶段,由于主节点对从节点的方位、距离、海洋信道环境等外界因素处于全盲状态,需采用时分多址(tdma)协议以牺牲时间代价获取更为准确的信息,便于完成从节点完成接入网络任务:主节点定向收发基阵采用全向工作模式,计算并向各从节点广播tdma调度时隙信息;假设节点已完成时间同步,对于从节点n,其调度时隙开始于tn:

    8、tn=n·t   (1)

    9、其中,tn表示从节点n的调度时隙开始时间,n表示从节点n的编号,t表示单个时隙的长度;为确保各从节点都能完成接入网络任务,时隙长度t可由下式表示:

    10、t=r/vwater+tpacket   (2)

    11、其中,vwater表示水中声速,tpacket表示发送数据包所需的时间,r表示各节点的最大传输范围;当从节点n接收到来自主节点的调度时隙数据包时即可获取tn,并在tn时刻广播反馈信息;主节点接收到各从节点反馈信息后,获得从节点距离、方位和海洋信道环境等信息,完成auv集群编队初始化;

    12、3)auv集群编队航行阶段mac协议:

    13、在航行阶段中,auv集群编队的任务是搜集水下信息数据,该航行阶段是从节点向主节点进行数据传输;主节点每隔一段时间tc通过全向模式广播一次编队控制信息(包括移动速度和方向),以确保集群编队能够保持队形,tc表示主节点全向模式广播的时间间隔;由于该阶段主从节点的位置相对固定,从节点的传输可以根据节点相对位置采用空分多址(sdma)协议:主节点定向收发基阵采用定向工作模式,按照步骤2)中获取的从节点位置信息,调整各路收发机,使每路收发机对应的一个波束指向一个从节点,通过波束形成技术激活该波束;由于m=n,可记收发机m对应的从节点为从节点m,收发机m的波束(k-β+1),(k-β+2),(k-β+3),…,k之一对准从节点m后,主节点可通过该波束与从节点m完成信息交换;由于主节点共有m路发射机,可以同时向不同方向的m个从节点发送不同的数据,而无需浪费从节点的轮候时间;

    14、该航行阶段中,主节点在接收从节点发送信息的同时,也会记录接收信噪比snr;用dt表示信号检测阈,认为当snr≥dt时,物理层可100%无误解码,即接收端可100%收到发送端传来的数据包;由于水流等海洋环境动态变化,从节点所在位置可能发生漂移,导致偏离原来波束的覆盖范围,有必要调整波束以重新对准从节点;对于收发机m,当从节点m位于波束覆盖范围内,则有snr≥dt;当snr<dt时,说明从节点m偏离波束覆盖范围,便可启动基于q学习的波束角度调整机制:

    15、3.1)q值表初始化:生成一个a行、b列的q值表,q值表的行数和列数满足下式:

    16、

    17、其中,a值为q值表的行数,同时也为最大迭代次数,为防止算法占用太大的存储空间,将q值表设置为有限行,当q值表被填满时清空q值表,若拓扑结构变化比较剧烈a可取较大的值;b值表示收发机m对应的波束数;q值表的行a(a=1,2,…,a)表示从节点位置离开波束覆盖范围后经历的时隙个数(不计入主节点广播编队控制信息占用时隙),q值表的列b(b=1,2,…,b)表示调整收发机m激活波束(k-β+b);因此,q(a,b)表示在第a个时隙调整收发机m激活波束(k-β+b)这一动作对应的q值;q(a,b)的值越大表示在第a个时隙调整收发机m激活波束(k-β+b)的优先级越大;即,在第a个时隙中,收发机m会优先选择q值最大的波束激活;若第a行中出现多个最大的q值,则收发机m随机选择其中一个波束激活;

    18、3.2)q值更新机制:在第a个时隙中,收发机m根据此时的q值激活波束(k-β+b)后,根据获得的接收信噪比snr判断奖励值r为:

    19、

    20、其中,r表示奖励值,snr表示接收信噪比,dt表示信号检测阈;若snr≥dt,说明此时收发机m激活的波束能够正常接收来自从节点m的信息,给予正值奖励;反之,则说明收发机m激活的波束范围仍不能覆盖从节点m,给予负值奖励;第a+1行的q值更新如下:

    21、q(a+1,b)←(1-γ)q(a,b)+γ·r   (5)

    22、其中,γ为学习率,取值范围(0,1],r表示奖励值;

    23、初始化q值表时,q(1,b)也按公式(4)和(5)进行初始化(q(0,b)=0);当q值表填满时,选择最大q值对应波束激活后,一轮更新结束,清空q值表,结束基于q学习的波束角度调整机制;若此时snr≥dt,说明当前的波束范围已能够覆盖从节点m;若snr<dt,则从节点m可能离开收发机m对应的所有波束覆盖范围,采用步骤2)中的tdma协议重新进行auv集群编队初始化;

    24、3.3)多路收发机的q值更新情况:本发明中,每路收发机都拥有一个独立的q值表,若多路收发机出现接收信噪比snr<信号检测阈dt的情况,这些收发机基于q学习的波束角度调整可同时进行,通常情况下互不干扰;但当某路收发机结束基于q学习的波束角度调整机制后,若须选择步骤2)中的tdma协议重新进行auv集群编队初始化,则其他所有收发机的波束角度调整也结束,并清空q值表。

    25、本发明具有以下突出优点:

    26、1)针对auv集群编队初始化阶段和航行阶段的不同接入需求,分别采用tdma和sdma协议,充分发挥定向收发基阵的优势以获取更高的鲁棒性和网络吞吐量;

    27、2)针对auv航行阶段组网动态拓扑问题,使用基于q学习的波束角度调整机制,动态调整收发机波束覆盖范围,能够有效适应动态变化的海洋环境;单路收发机波束调节过程中,不影响其他收发机的正常通信,提高接入协议的工作效率;

    28、3)当auv集群编队拓扑变化较大时,原有的收发机波束范围不能覆盖从节点,采用tdma协议重新进行集群编队初始化,确保协议的高鲁棒性。


    技术特征:

    1.基于q学习的水下无人集群编队时分-空分多址接入协议,其特征在于包括以下步骤:


    技术总结
    基于Q学习的水下无人集群编队时分‑空分多址接入协议,涉及水下无人集群编队。在水下无人集群编队中,各节点配备定向收发基阵和多路收发机。在初始化阶段,采用时分多址协议,主节点通过全向模式广播调度时隙信息,从节点在指定时隙广播反馈信息,完成网络接入。航行阶段,从节点向主节点传输数据,采用空分多址协议,主节点通过定向模式,根据从节点位置信息调整波束方向,实现多点同时通信。引入Q学习技术,动态调整波束角度,确保空分多址接入适应海洋环境动态变化,有效提高通信效率。为水下无人集群提供一种高网络吞吐量、高鲁棒性的多址接入方案。

    技术研发人员:赵矣昊,陈友淦,张文翔,罗圆,王栩琛,张小康,许肖梅
    受保护的技术使用者:厦门大学
    技术研发日:
    技术公布日:2024/11/26
    转载请注明原文地址:https://tc.8miu.com/read-32633.html

    最新回复(0)