数据处理单元DPU业务数据的调度处理方法及相关产品与流程

    专利查询2022-08-21  76


    数据处理单元dpu业务数据的调度处理方法及相关产品
    技术领域
    1.本发明涉及计算机技术领域,尤其涉及一种数据处理单元dpu业务数据的调度处理方法及相关产品。


    背景技术:

    2.数据处理单元(data processing unit,dpu)是以数据为中心构造的处理器,支持多种基础设施层服务,例如存储、安全、服务质量,并可实现数据中心业务和基础设施的分离。dpu网卡是一种可编程的、具有业务卸载功能和硬件加速功能的网络适配器。
    3.温度保护是根据被保护区域中的温度变化情况作为判断依据的一种保护,可避免因温度过高引起设备损坏。目前,应用在dpu网卡上的温度保护方法通常是,在dpu网卡的温度超过预设的温度阈值时,采用动态时钟频率调整技术降低dpu网卡的功耗和温度。
    4.但上述方法中,在降低功耗和温度的同时,会降低dpu网卡处理数据的能力,使温度保护的效率较低。


    技术实现要素:

    5.本技术实施例公开了一种数据处理单元dpu业务数据的调度处理方法及相关产品,以期在网络设备中的处理器温度过高的情况下,通过移除该处理器中处理的业务数据,实现在不降低处理器处理数据的能力的情况下,降低该处理器的功耗和温度,避免因温度过高造成的器件损坏和业务数据损伤,提高温度保护的效率。
    6.第一方面,本技术实施例提供了一种数据处理单元dpu业务数据的调度处理方法,应用于包含第一处理器和第二处理器的网络设备,运行于上述第一处理器的业务数据具有卸载到上述第二处理器的能力,上述第二处理器与网卡配合处理被卸载到上述第二处理器的业务数据,上述第二处理器为dpu,上述方法包括:
    7.在上述第二处理器与网卡配合处理被卸载到上述第二处理器的业务数据的过程中,获取状态信息,上述状态信息包含用于表示上述第二处理器的温度的信息;
    8.根据上述状态信息,确定是否将被卸载到上述第二处理器的业务数据转移回上述第一处理器。
    9.本技术实施例中,上述网络设备可以是客户机或服务器,上述第一处理器可以是中央处理器(central processing unit,cpu)、微处理器(micro processor unit,mpu)或片上系统(system on chip,soc),上述第二处理器具有软件卸载能力和硬件加速能力,例如上述第二处理器可以是基于现场可编程逻辑门阵列(field programmable gate array,fpga)、专用集成电路(application specific integrated circuit,asic)或soc的数据处理单元(data processing unit,dpu)。其中,将运行于上述第一处理器的业务数据卸载到上述第二处理器包括将上述业务数据的数据面和控制面均卸载到上述第二处理器中。本方法通过获取上述第二处理器中包含温度的状态信息,实现在上述第二处理器温度过高的情况下,将卸载到上述第二处理器的上述业务数据转移到上述第一处理器中进行处理,在不
    降低上述第二处理器处理数据的能力的情况下,减少上述第二处理器中处理的数据量,降低上述第二处理器的功率损耗和温度,避免因温度过高造成的器件损坏和业务数据损伤,提高温度保护的效率。
    10.在第一方面一个可能的实施方式中,上述状态信息包括第一温度和第一流量信息,上述第一温度为上述第二处理器处于工作状态时的温度,上述第一流量信息包含用于描述上述第二处理器处理的业务数据的信息;
    11.上述根据上述状态信息,确定是否将被卸载到上述第二处理器的业务数据转移回上述第一处理器包括:
    12.在确定上述第一温度大于第一温度阈值的情况下,根据上述第一温度和上述第一流量信息,确定业务卸载策略,上述业务卸载策略用于指示将至少一个被卸载到上述第二处理器的业务数据转移回上述第一处理器;
    13.根据上述业务卸载策略,确定第二温度,上述第二温度为预测的在执行上述业务卸载策略后上述第二处理器的温度;
    14.在上述第二温度小于上述第一温度阈值的情况下,执行上述业务卸载策略。
    15.在本实施例中,在上述第二处理器处于工作状态的情况下,上述网络设备中的以太网服务处于开启状态,可以通过上述网络设备中的端口进行数据包的收发,上述第一流量信息可以通过统计上述数据包得到,上述第一温度阈值可以是用户预先设置的温度值,也可以是上述网络设备中默认的温度值。本方法根据采集到的上述第二处理器的温度,与上述第一温度阈值进行比较,在上述第一温度大于上述第一温度阈值的情况下,根据上述第一温度和上述第一流量信息确定将哪个/些业务数据转移回上述第一处理器中,得到上述业务卸载策略,再根据上述业务卸载策略计算得到上述第二温度,判断执行上述业务卸载策略之后是否能使上述第二温度降低到预期值(或称小于上述第一温度阈值),若是,则执行上述业务卸载策略,实现在降低上述第二处理器温度的同时,增加温度变化的可预知性,避免业务数据的损伤。
    16.在第一方面一个可能的实施方式中,在上述根据上述第一温度和上述第一流量信息,确定上述业务卸载策略之前,上述方法还包括:
    17.获取目标模型,上述目标模型用于描述上述第二处理器处理的业务数据与上述第二处理器的温度之间的关系,上述目标模型根据历史流量信息和历史温度训练得到,上述历史流量信息包括上述第二处理器历史处理过的业务数据的信息,上述历史温度与上述历史流量信息之间具有匹配关系;
    18.上述第一流量信息包括:业务优先级、业务类型、业务流量以及业务新建速率;
    19.上述根据上述第一温度和上述第一流量信息,确定上述业务卸载策略包括:
    20.将上述第一温度、上述业务优先级、上述业务类型、上述业务流量以及上述业务新建速率输入上述目标模型,得到上述业务卸载策略。
    21.在本实施例中,上述历史流量信息中包含至少一组流量信息,相应的,上述历史温度中包含至少一组温度信息,上述历史流量信息中每组流量信息在上述历史温度中均有唯一的温度信息与该组流量信息在时间上相互匹配。上述业务优先级用于描述上述第二处理器中处理上述业务数据的优先级,上述业务类型包括网络业务、安全业务、存储业务,上述业务流量用于描述处理该业务数据对应的数据包的大小,上述业务新建速率用于描述单位
    时间内新建业务数据的大小。其中,在上述网络设备启动时,即开始记录上述第二处理器中的流量信息,作为历史流量信息以供上述目标模型学习并形成可用模型。本方法通过训练好的目标模型,结合第二处理器的当前温度和流量信息,确定业务卸载策略,可以提高输出的业务卸载策略的准确性,提高降低上述第二处理器功耗或温度时的效率。
    22.在第一方面一个可能的实施方式中,在上述根据上述业务卸载策略,确定第二温度之后,上述方法还包括:
    23.在上述第二温度大于上述第一温度阈值的情况下,执行上述业务卸载策略;
    24.根据上述业务卸载策略,确定第二流量信息,上述第二流量信息为用于描述预测的在执行上述业务卸载策略后上述第二处理器处理的业务数据的信息;
    25.根据上述第二流量信息,确定执行上述业务卸载策略后上述第二处理器处理的业务数据的数量;
    26.在上述数量小于1的情况下,执行服务质量(quality of service,qos)策略。
    27.在本实施例中,上述网络设备支持qos功能,上述qos功能可根据不同类型的业务数据提供不同的传输品质服务,具体表现为对于实时性强且重要的业务数据或数据报文,更高级别的传输优先级,以标识上述业务数据的相对重要性,并可使用上述网络设备所提供的优先级转发策略、拥塞避免等机制为上述业务数据提供相应的传输服务。本方法中,在执行上述业务卸载策略后,判断上述第二处理器中可移除的业务数据是否全部转移回上述第一处理器,若是,则执行qos策略,相应的,若不是,则继续根据前述中的方法执行新的业务卸载策略,使温度降低。在温度过高且执行业务卸载策略也无法使温度降到预期值时,执行qos策略,通过分配网络带宽的方式,增加网络性能的可预知性,在降低功耗和温度的同时,尽量保证上述业务数据不受损伤,更合理、有效地进行温度保护。
    28.在第一方面一个可能的实施方式中,在上述确定上述第一温度大于第一温度阈值之后,上述方法还包括:
    29.确定上述第一温度小于第二温度阈值;
    30.在上述执行服务质量qos策略之后,上述方法还包括:
    31.获取第三温度,上述第三温度为执行上述qos策略后上述第二处理器的温度;
    32.统计上述第三温度大于上述第二温度阈值的第一次数;
    33.在上述第一次数超过第一阈值的情况下,执行关闭以太网服务策略,上述关闭以太网服务策略用于指示上述网络设备进入网络通信中断状态。
    34.在本实施例中,可以理解的,上述第二处理器中处理的业务包括可转移回上述第一处理器中的业务数据和不可转移回上述第一处理器中的业务数据,在关闭以太网服务的情况下,上述第二处理器仍处于工作状态。上述网络设备中设置有两级温度阈值(上述第一温度阈值和上述第二温度阈值),上述第二温度阈值可以是用户预先设置的温度值,也可以是上述网络设备中默认的温度值。在统计上述第三温度大于上述第二温度阈值的次数时,可以通过在指定周期内多次获取上述第二处理器的温度(第三温度),统计获取到的温度超过上述第二温度阈值的次数,超过指定次数之后关闭以太网服务,可以在执行上述业务卸载策略和上述qos策略之后均不能使上述第二处理器的温度降低到预期温度的情况下,通过关闭以太网服务使上述网络设备处于通信中断的方式,降低上述第二处理器和上述网卡的功率损耗,以实现降低上述第二处理器的温度,避免上述网络设备或上述第二处理器因
    高温损坏。
    35.在第一方面一个可能的实施方式中,在上述执行关闭以太网服务策略之后,上述方法还包括:
    36.获取第四温度,上述第四温度为在上述网络设备处于网络通信中断状态的情况下上述第二处理器的温度;
    37.统计上述第四温度大于上述第一温度阈值且小于上述第二温度阈值的第二次数;
    38.在上述第二次数超过第二阈值的情况下,执行开启以太网服务策略,上述开启以太网服务策略用于指示上述网络设备进入网络通信恢复状态。
    39.在本实施例中,在上述网络设备中,执行关闭以太网服务之后,在上述第二处理器的温度降低并处于上述两级温度阈值的区间内的情况下,开启以太网服务,以及时恢复上述网络设备的网络通信,减少因网络通信中断带来的损失。
    40.在第一方面一个可能的实施方式中,在上述执行开启以太网服务策略之后,上述方法还包括:
    41.获取初始流量信息和第三流量信息,上述初始流量信息为用于描述用户设置的在上述第二处理器中处理的业务数据的信息,或上述第二处理器默认处理的业务数据的信息,上述第三流量信息为用于描述上述网络设备处于网络通信恢复状态下上述第二处理器处理的业务数据的信息;
    42.根据上述第四温度、上述初始流量信息、上述第三流量信息和上述目标模型,确定将至少一个已转移回上述第一处理器的业务数据卸载到上述第二处理器。
    43.在本实施例中,在恢复网络通信之后,通过上述目标模型计算将部分或全部已经移除的上述业务数据从上述第一处理器中卸载到上述第二处理器中处理,以减轻上述第一处理器的负荷,提高上述网络设备中的业务数据的处理效率。
    44.第二方面,本技术实施例提供了一种数据处理单元dpu业务数据的调度处理装置,应用于包含第一处理器和第二处理器的网络设备,运行于上述第一处理器的业务数据具有卸载到上述第二处理器的能力,上述第二处理器与网卡配合处理被卸载到上述第二处理器的业务数据,上述第二处理器为dpu,上述装置包括:
    45.第一获取单元,用于在上述第二处理器与网卡配合处理被卸载到上述第二处理器的业务数据的过程中,获取状态信息,上述状态信息包含用于表示上述第二处理器的温度的信息;
    46.第一确定单元,用于根据上述状态信息,确定是否将被卸载到上述第二处理器的业务数据转移回上述第一处理器。
    47.在第二方面一个可能的实施方式中,上述状态信息包括第一温度和第一流量信息,上述第一温度为上述第二处理器处于工作状态时的温度,上述第一流量信息包含用于描述上述第二处理器处理的业务数据的信息;
    48.上述第一确定单元,还用于在确定上述第一温度大于第一温度阈值的情况下,根据上述第一温度和上述第一流量信息,确定业务卸载策略,上述业务卸载策略用于指示将至少一个被卸载到上述第二处理器的业务数据转移回上述第一处理器;
    49.根据上述业务卸载策略,确定第二温度,上述第二温度为预测的在执行上述业务卸载策略后上述第二处理器的温度;
    50.在上述第二温度小于上述第一温度阈值的情况下,执行上述业务卸载策略。
    51.在第二方面一个可能的实施方式中,上述装置还包括:
    52.第二获取单元,用于获取目标模型,上述目标模型用于描述上述第二处理器处理的业务数据与上述第二处理器的温度之间的关系,上述目标模型根据历史流量信息和历史温度训练得到,上述历史流量信息包括上述第二处理器历史处理过的业务数据的信息,上述历史温度与上述历史流量信息之间具有匹配关系;
    53.上述第一流量信息包括:业务优先级、业务类型、业务流量以及业务新建速率;
    54.上述第一确定单元,还用于将上述第一温度、上述业务优先级、上述业务类型、上述业务流量以及上述业务新建速率输入上述目标模型,得到上述业务卸载策略。
    55.在第二方面一个可能的实施方式中,上述装置还包括:
    56.第一执行单元,用于在上述第二温度大于上述第一温度阈值的情况下,执行上述业务卸载策略;
    57.第二确定单元,用于根据上述业务卸载策略,确定第二流量信息,上述第二流量信息为用于描述预测的在执行上述业务卸载策略后上述第二处理器处理的业务数据的信息;
    58.第三确定单元,用于根据上述第二流量信息,确定执行上述业务卸载策略后上述第二处理器处理的业务数据的数量;
    59.第二执行单元,用于在上述数量小于1的情况下,执行服务质量qos策略。
    60.在第二方面一个可能的实施方式中,上述装置还包括:
    61.第四确定单元,用于确定上述第一温度小于第二温度阈值;
    62.第三获取单元,用于获取第三温度,上述第三温度为执行上述qos策略后上述第二处理器的温度;
    63.第一统计单元,用于统计上述第三温度大于上述第二温度阈值的第一次数;
    64.第三执行单元,用于在上述第一次数超过第一阈值的情况下,执行关闭以太网服务策略,上述关闭以太网服务策略用于指示上述网络设备进入网络通信中断状态。
    65.在第二方面一个可能的实施方式中,上述装置还包括:
    66.第四获取单元,用于获取第四温度,上述第四温度为在上述网络设备处于网络通信中断状态的情况下上述第二处理器的温度;
    67.第二统计单元,用于统计上述第四温度大于上述第一温度阈值且小于上述第二温度阈值的第二次数;
    68.第四执行单元,用于在上述第二次数超过第二阈值的情况下,执行开启以太网服务策略,上述开启以太网服务策略用于指示上述网络设备进入网络通信恢复状态。
    69.在第二方面一个可能的实施方式中,上述装置还包括:
    70.第五获取单元,用于获取初始流量信息和第三流量信息,上述初始流量信息为用于描述用户设置的在上述第二处理器中处理的业务数据的信息,或上述第二处理器默认处理的业务数据的信息,上述第三流量信息为用于描述上述网络设备处于网络通信恢复状态下上述第二处理器处理的业务数据的信息;
    71.第五确定单元,用于根据上述第四温度、上述初始流量信息、上述第三流量信息和上述目标模型,确定将至少一个已转移回上述第一处理器的业务数据卸载到上述第二处理器。
    72.关于第二方面以及第二方面中任意一个可能的实施方式所带来的技术效果,可参考对应于第一方面以及第一方面中相应的实施方式的技术效果的介绍。
    73.第三方面,本技术实施例提供了一种电子设备,上述电子设备包括:
    74.存储器,用于存储程序;
    75.处理器,用于执行上述存储器存储的上述程序,在上述程序被上述处理器执行的情况下,上述处理器执行如第一方面以及第一方面中任意一个可能的实施方式中的方法。
    76.第四方面,本技术实施例提供了一种计算机存储介质,上述计算机存储介质中存储有计算机程序,上述计算机程序包括程序指令,在上述程序指令被处理器执行的情况下,上述处理器执行如第一方面以及第一方面中任意一个可能的实施方式中的方法。
    77.第五方面,本技术实施例提供了一种计算机程序产品,上述计算机程序产品包括:指令或计算机程序;在上述指令或上述计算机程序被执行的情况下,使如第一方面以及第一方面中任意一个可能的实施方式中的方法实现。
    78.第六方面,本技术实施例提供了一种芯片,上述芯片包括处理器,上述处理器用于执行指令,在上述处理器执行上述指令的情况下,使得上述芯片执行如第一方面以及第一方面中任意一个可能的实施方式中的方法。可选的,上述芯片还包括输入/输出接口,上述输入/输出接口用于接收信号或发送信号。
    附图说明
    79.为了更清楚地说明本技术实施例的技术方案,下面将对本技术实施例中所需要使用的附图作简单地介绍。
    80.图1为本技术实施例提供的一种dpu网卡的应用场景示意图;
    81.图2为本技术实施例提供的一种网卡温度控制方法的应用场景示意图;
    82.图3为本技术实施例提供的一种业务数据卸载过程的流程示意图;
    83.图4为本技术实施例提供的一种业务数据的调度处理方法的流程示意图;
    84.图5为本技术实施例提供的一种目标模型训练的流程示意图;
    85.图6为本技术实施例提供的一种业务数据的调度处理系统的系统架构示意图;
    86.图7为本技术实施例提供的一种业务数据的调度处理方法的应用场景示意图;
    87.图8为本技术实施例提供的一种dpu温度变化的示意图;
    88.图9为本技术实施例提供的另一种业务数据的调度处理系统的系统架构示意图;
    89.图10为本技术实施例提供的另一种业务数据的调度处理系统的系统架构示意图;
    90.图11为本技术实施例提供的另一种业务数据的调度处理系统的系统架构示意图;
    91.图12为本技术实施例提供的一种数据处理单元dpu业务数据的调度处理装置的结构示意图;
    92.图13为本技术实施例提供的一种电子设备的结构示意图。
    具体实施方式
    93.为了使本技术的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图对本技术实施例进行描述。
    94.本技术的说明书、权利要求书及附图中的术语“第一”和“第二”等是用于区别不同
    对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备等,没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元等,或可选地还包括对于这些过程、方法、产品或设备等固有的其它步骤或单元。
    95.在本文中提及的“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员可以显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
    96.应当理解,在本技术中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上,“至少两个(项)”是指两个或三个及三个以上,“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“a和/或b”可以表示:只存在a,只存在b以及同时存在a和b三种情况,其中a,b可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
    97.本技术提供了一种数据处理单元dpu业务数据的调度处理方法及相关产品,涉及计算机技术领域,具体可应用于dpu网卡的温度控制。
    98.dpu温度主要与功耗系统、环境温度、散热系统、空气流速等相关。在dpu的芯片温度超出工作范围可能会导致器件功能局部失效,例如误码、时钟精度不准、业务稳定性下降,性能下降或器件完全损坏。散热设备老化(散热效果退化)、器件粉尘较大、刀片密集、环境温度上升或芯片长期处于较高载荷运转都可能导致dpu温度升高。此时需要采取一定的措施,以降低dpu的功耗,达到温度控制的效果。若dpu散热效果退化,也可能会出现dpu温度升高导致器件损坏,此时在dpu上动态调节卸载业务或qos限速,则可以有效降低dpu功耗,达到温度控制效果。
    99.本技术实施例提供了一种dpu网卡的应用场景示意图,请参阅图1。
    100.如图1所示,该图中网络设备101包括第一处理器102、第二处理器103、高速串行计算机扩展总线标准(peripheral component interconnect express,pcie)插槽104、网卡处理芯片105、温度传感器106和风扇107。其中,网卡通过pcie插槽104连接到网络设备101的主板上,网卡处理芯片105在处理业务数据时,会使功耗增加并产生热量;网卡处理芯片105上的温度传感器106持续监测芯片温度,风扇107可对芯片进行物理降温。
    101.在实际应用的过程中,在温度传感器106检测到芯片温度过高的情况下,通常会通过采用动态时钟频率调整技术降低芯片的功耗和温度,请参阅图2,图2是本技术实施例提供的一种网卡温度控制方法的应用场景示意图。
    102.如图2所示,处理器201中包括cpu核202和频率控制器203,其中处理器201可以是前述的dpu或dpu网卡,cpu核202可以是前述中的网卡处理芯片。在芯片温度过高的情况下,通过频率控制器203检测芯片的输入接口、输出接口和芯片内部总线的实时负载情况,并根据负载情况的变化动态调整芯片的工作频率,以降低芯片功耗和温度。
    103.但上述方法在降低功耗和温度的同时,降低工作频率时会使处理器201单位时间内处理的数据量减少,降低处理器201处理数据的能力,温度保护的效率较低。
    104.针对以上问题,本技术实施例提供了一种数据处理单元dpu业务数据的调度处理方法,可以在网络设备中的处理器温度过高的情况下,通过移除该处理器中处理的业务数据,实现在不降低该处理器处理数据的能力的情况下,降低该处理器的功耗和温度,避免因温度过高造成的器件损坏和业务数据损伤,提高温度保护的效率。
    105.在介绍上述方法之前,下面先结合本技术实施例提供的附图3介绍本技术实施例中业务数据的卸载过程,请参阅图3,图3是本技术实施例提供的一种业务数据卸载过程的流程示意图。
    106.如图3所示,左侧图示包括网络设备300、主机系统301、dpu302、业务数据303,右侧图示包括网络设备300、主机系统304、dpu305、业务数据306。其中主机系统301和主机系统304为网络设备300中的同一主机系统,dpu302和dpu305为网络设备300中的同一dpu,业务数据303运行于主机系统301中的处理器上,dpu302可以通过网络设备300中特定的接口将业务数据303从主机系统301的处理器上卸载到自身的嵌入式cpu上处理,右侧图示的业务数据306,同时将业务数据303的数据面通过dpu302内部的其他类型的硬件加速引擎进行处理,该硬件加速引擎包括协处理器、fpga或专用领域处理器(domain specific architecture,dsa)。应当说明的是,上述业务数据303或业务数据306中所包含的安全传输层协议(transport layer security,tls)卸载、互联网安全协议(internet protocol security,ipsec)卸载、传输控制协议(transmission control protocol,tcp)分段卸载(tcp segment offload,tso)、通用分段卸载(generic segmentation offload,gso)、通用接收卸载(generic receive offload,gro)、循环冗余校验(cyclic redundancy check,crc)卸载、校验总和checksum卸载,仅是本技术实施例给出的运行于主机系统301或主机系统304的处理器上的且可以被卸载到dpu上处理的业务数据的示例,上述业务数据303或上述业务数据306包括但不限于以上列出的业务数据。
    107.下面将结合本技术实施例中的附图4对上述方法进行介绍,请参阅图4,图4为本技术实施例提供的一种业务数据的调度处理方法的流程示意图。
    108.如图4所示,上述方法应用于包含第一处理器和第二处理器的网络设备,运行于上述第一处理器的业务数据具有卸载到上述第二处理器的能力,上述第二处理器与网卡配合处理被卸载到上述第二处理器的业务数据,上述第二处理器为dpu,包括以下步骤:
    109.s401、获取状态信息,上述状态信息包含用于表示第二处理器的温度的信息。
    110.上述网络设备可以是客户机或服务器,上述第一处理器可以是cpu、mpu或soc,上述第二处理器具有软件卸载能力和硬件加速能力,上述软件卸载能力用于实现前述图3中所述的业务数据的卸载,上述硬件加速能力用于通过上述第二处理器中的硬件加速引擎实现对上述业务数据的处理。其中,上述第二处理器可以是基于fpga的dpu、也可以是基于asic的dpu或基于soc的dpu。具体的,可以通过用于监测上述第二处理器的温度的温度传感器获取上述状态信息中包含的温度信息。
    111.s402、根据上述状态信息,确定是否将被卸载到上述第二处理器的业务数据转移回第一处理器。
    112.其中,将运行于上述第一处理器的业务数据卸载到上述第二处理器包括将上述业务数据的数据面和控制面均卸载到上述第二处理器中,对应的,将上述业务数据转移回上述第一处理器包括将上述数据面和上述控制面转移回上述第一处理器中,上述数据面为在
    上述第二处理器中被处理的业务数据的实际数据,上述控制面用于传输控制信令。
    113.在本技术实施例中,在上述第二处理器与网卡配合处理被卸载到上述第二处理器的业务数据的过程中,通过获取上述第二处理器中包含温度的状态信息,实现在上述第二处理器温度过高的情况下,将卸载到上述第二处理器的上述业务数据转移到上述第一处理器中进行处理,在减少上述第二处理器中处理的数据量、降低上述第二处理器的功率损耗和温度的同时,避免业务数据的损伤,更合理、有效地进行温度保护,以提高温度保护的效率。
    114.在一些可选的实施例中,上述方法包括以下步骤:
    115.s4011、获取状态信息,上述状态信息包含用于表示第二处理器的温度的信息,上述状态信息包括第一温度和第一流量信息。
    116.上述第一温度为上述第二处理器处于工作状态时的温度,上述第一温度可以通过安装在上述第二处理器中的温度传感器得到,上述第一流量信息包含用于描述上述第二处理器处理的业务数据的信息。可以理解的,在上述第二处理器处于工作状态的情况下,上述网络设备中的以太网服务处于开启状态,可以通过上述网络设备中的端口进行数据包的收发,上述第一流量信息可以通过统计上述数据包得到。
    117.s4021、在确定上述第一温度大于第一温度阈值的情况下,根据上述第一温度和上述第一流量信息,确定业务卸载策略。
    118.上述第一温度阈值可以是用户预先设置的温度值,也可以是上述网络设备中默认的温度值,上述业务卸载策略用于指示将至少一个被卸载到上述第二处理器的业务数据转移回上述第一处理器。具体的,可以根据上述第一温度和上述第一流量信息,结合上述第二处理器的温度与其处理的业务数据之间的关系,确定将哪个/些业务数据转移回上述第一处理器中可以使上述第二处理器的温度下降到预期温度值,得到上述业务卸载策略。
    119.可选的,在执行步骤s4021之前,上述方法还包括:
    120.s4022、获取目标模型,上述目标模型用于描述上述第二处理器处理的业务数据与上述第二处理器的温度之间的关系。
    121.上述目标模型根据n组历史流量信息和n组历史温度通过卷积神经网络训练得到,以减少温度滞后性对训练结果造成的影响,增加模型预测的准确度。其中,上述n组历史流量信息包括上述第二处理器历史处理过的业务数据的信息,上述n组历史温度与上述n组历史流量信息之间具有匹配关系,具体的,上述n组历史流量信息中包含至少一组流量信息,相应的,上述n组历史温度中包含至少一组温度信息,上述n组历史流量信息中每组流量信息在上述n组历史温度中均有唯一的温度信息与该组流量信息在时间上相互匹配。
    122.上述第一流量信息包括:业务优先级、业务类型、业务流量以及业务新建速率,其中,上述业务优先级用于描述上述第二处理器中处理上述业务数据的优先级,上述业务类型包括网络业务、安全业务、存储业务,上述业务流量用于描述处理该业务数据对应的数据包的大小,上述业务新建速率用于描述单位时间内新建业务数据的大小。
    123.为进一步描述上述目标模型的训练过程,本技术实施例还提供了一种目标模型训练的流程示意图,请参阅图5。
    124.如图5所示,图中包括训练数据501、输入数据502、矩阵503、矩阵504和预测的温度505。其中,训练数据501中包括当前数据g1、历史数据g2、
    ……
    、历史数据gn-1、历史数据gn,
    共n组数据,该n组数据包含了当前数据(第一流量信息)和历史数据(历史流量信息)。如图5左上角表格所示,假设运行于上述第一处理器的且可被卸载到上述第二处理器的业务数据共有8种业务类型,分别为tls、ipsec、tso、gso、gro、crc、checksum和普通业务,其中普通业务包括在上述第二处理器中的除从上述第一处理器中卸载得到的业务数据之外的业务数据。训练数据501中包含的当前数据g1、历史数据g2、
    ……
    、历史数据gn-1、历史数据gn中的每组数据分别包括8个优先级、8中业务类型和4个输入变量,其中输入变量为业务优先级(优先级)、业务类型、业务流量(吞吐量)以及业务新建速率(每秒新建)。上述目标模型的训练过程可描述如下:
    125.将上述训练数据501作为输入参数,加载到上述目标模型中进行处理。可以理解的,上述训练数据501中的每组数据分别包括8个优先级、8种业务类型和4个输入变量,其中输入变量为业务优先级、业务类型、业务流量以及业务新建速率。训练数据501中包含n组数据,即对应有n个8*8*4的矩阵。其中,应当说明的是,上述优先级和上述业务类型的划分仅是本技术实施例提供的一种可能的示例,在此不作限定。另外,在搭载了上述目标模型的网络设备启动时,即开始不断采集上述第二处理器中的第一流量信息和第一温度,并保存该第一流量信息以作为下一次上述目标模型学习的历史数据。
    126.将每组数据对应的8*8*4的矩阵合成一行,即每一行对应的值(一行即一组业务优先级、业务类型、业务流量、业务新建速率)依次放在第一行的后面,合成的一行为一组输入数据502。可以理解的,训练数据501中包含n组数据,则对应有n组输入数据502,其中该n组输入数据502中的每组输入数据可以是各不相同的。
    127.将该n组输入数据502输入卷积神经网络中,通过卷积神经网络中的卷积层进行计算,获取输入数据502的特征信息并形成矩阵503,再将该矩阵503通过卷积神经网络中的池化层进行计算,降低特征信息的维度,在经过多次卷积、池化的过程之后,形成矩阵504,将矩阵504展开成一行数据并输入反向传播(back propagation,bp)神经网络,该展开形成的一行数据与bp神经网络输入层的神经元个数相同(bp神经网络中的神经元在图5中以圆圈表示),经过隐含层计算,输出预测的温度505。
    128.将预测的温度505和实际温度进行对比分析,使用最终损失函数计算偏差,根据链式法则反向传播,计算并更新神经网络权值(神经网络权值在图5中以圆圈之间的连接线表示),使最终损失函数计算的偏差越来越小,以提高目标模型的准确度。其中,上述预测的温度505可以是前述中的第二温度,上述实际温度可以是前述中的第一温度。如此通过每次获取历史数据和当前数据作为输入训练目标模型,可以理解的,在训练的次数越来越多时,该目标模型的预测结果也会越来越准确。
    129.在进行温度控制的过程中,通过获取历史数据和当前数据作为输入来预测温度,并计算出相应的业务卸载策略或qos策略,使得目标模型每次训练的输出结果既为下一次训练的历史数据,也是本次业务卸载策略或qos策略的依据或结果。
    130.上述步骤s4021具体包括:s4023、将上述第一温度、上述业务优先级、上述业务类型、上述业务流量以及上述业务新建速率输入上述目标模型,得到上述业务卸载策略。
    131.在本实施例中,应当说明的是,在上述网络设备启动时,即开始记录上述第二处理器中的流量信息,作为历史流量信息以供上述目标模型学习并形成可用模型,可以提高输出的业务卸载策略的准确性,提高降低上述第二处理器功耗或温度的效率。
    132.s4031、根据上述业务卸载策略,确定第二温度。
    133.上述第二温度为预测的在执行上述业务卸载策略后上述第二处理器的温度。可以理解的,在执行上述业务卸载策略之后,上述第二处理器中处理的业务数据会发生变化,相应的,根据温度与业务数据之间的关系,可以计算得到上述第二温度。应当说明的是,上述第二温度与实际执行上述业务卸载策略之后上述第二处理器的温度可以是不同的。
    134.可选的,在执行步骤s4031之后,上述方法还包括:
    135.s4032、在上述第二温度大于上述第一温度阈值的情况下,执行上述业务卸载策略。
    136.s4033、根据上述业务卸载策略,确定第二流量信息。
    137.上述第二流量信息为用于描述预测的在执行上述业务卸载策略后上述网络设备处理的业务数据的信息。具体的,上述业务卸载策略用于指示将至少一个被卸载到上述第二处理器的业务转移回上述第一处理器,上述第一流量信息中包含的业务数据减去上述业务卸载策略指示的移除的业务卸载数据,即可得到上述第二流量信息。
    138.s4034、根据上述第二流量信息,确定执行上述业务卸载策略后上述第二处理器处理的业务数据的数量。
    139.s4035、在上述数量小于1的情况下,执行qos策略。
    140.上述网络设备支持qos功能,上述qos功能可根据不同类型的业务数据提供不同的传输品质服务,具体表现为对于实时性强且重要的业务数据或数据报文,更高级别的传输优先级,以标识上述业务数据的相对重要性,并可使用上述网络设备所提供的优先级转发策略、拥塞避免等机制为上述业务数据提供相应的传输服务。
    141.在本实施例中,在执行上述业务卸载策略后,判断上述第二处理器中可移除的业务数据是否全部转移回上述第一处理器,若是,则执行qos策略,相应的,若不是,则继续根据前述中的方法执行新的业务卸载策略,使温度降低。在温度过高且执行业务卸载策略也无法使温度降到预期值时,执行qos策略,通过分配网络带宽的方式,增加网络性能的可预知性,在降低功耗和温度的同时,尽量保证上述业务数据不受损伤,提高温度保护的效率。
    142.可选的,在执行步骤s4021之后,上述方法还包括:
    143.s4024、确定上述第一温度小于第二温度阈值。
    144.上述网络设备中设置有两级温度阈值(上述第一温度阈值和上述第二温度阈值),上述第二温度阈值可以是用户预先设置的温度值,也可以是上述网络设备中默认的温度值。
    145.在执行步骤s4035之后,还包括:
    146.s4036、获取第三温度,上述第三温度为执行上述qos策略后上述第二处理器的温度。
    147.s4037、统计上述第三温度大于上述第二温度阈值的第一次数。
    148.示例性的,在统计上述第三温度大于上述第二温度阈值的第一次数时,可以通过在指定周期内多次获取上述第二处理器的温度(第三温度),统计获取到的温度超过上述第二温度阈值的次数。
    149.s4038、在上述第一次数超过第一阈值的情况下,执行关闭以太网服务策略,上述关闭以太网服务策略用于指示上述网络设备进入网络通信中断状态。
    150.可以理解的,上述第二处理器中处理的业务包括可转移回上述第一处理器中的业务数据和不可转移回上述第一处理器中的业务数据,在关闭以太网服务的情况下,上述第二处理器仍处于工作状态。在上述第一次数超过第一阈值的情况下关闭以太网服务,可以在执行上述业务卸载策略和上述qos策略之后均不能使上述第二处理器的温度降低到预期温度的情况下,通过关闭以太网服务使上述网络设备处于通信中断的方式,降低上述第二处理器和上述网卡的功率损耗,以实现降低上述第二处理器的温度,避免上述网络设备或上述第二处理器因高温损坏。
    151.可选的,在执行步骤s4038之后,上述方法还包括:
    152.s4039、获取第四温度,上述第四温度为在上述网络设备处于网络通信中断状态的情况下上述第二处理器的温度。
    153.s40310、统计上述第四温度大于上述第一温度阈值且小于上述第二温度阈值的第二次数。
    154.示例性的,在统计上述第四温度大于上述第一温度阈值且小于上述第二温度阈值的第二次数时,可以通过在指定周期内多次获取上述第二处理器的温度(第四温度),统计获取到的温度大于上述第一温度阈值且小于上述第二温度阈值的次数。
    155.s40311、在上述第二次数超过第二阈值的情况下,执行开启以太网服务策略,上述开启以太网服务策略用于指示上述网络设备进入网络通信恢复状态。
    156.在本实施例中,在上述网络设备中,执行关闭以太网服务之后,在上述第二处理器的温度在指定周期内降低并处于上述两级温度阈值的区间内的情况下,开启以太网服务,以及时恢复上述网络设备的网络通信,减少因网络通信中断带来的损失。
    157.可选的,在执行步骤s40311之后,上述方法还包括:
    158.s40312、获取初始流量信息和第三流量信息。
    159.上述初始流量信息为用于描述用户设置的在上述第二处理器中处理的业务数据的信息,或上述第二处理器默认处理的业务数据的信息,上述第三流量信息为用于描述上述网络设备处于网络通信恢复状态下上述第二处理器处理的业务数据的信息。
    160.s40313、根据上述第四温度、上述初始流量信息、上述第三流量信息和上述目标模型,确定将至少一个已转移回上述第一处理器的业务数据卸载到上述第二处理器。
    161.可选的,在指定个周期内上述第四温度小于上述第一温度阈值的第三次数超过第三阈值的情况下,根据上述第四温度和上述目标模型确定需要卸载到上述第二处理器的业务数据。可以理解的,随着温度降低,上述初始流量信息所包含的业务数据逐渐全部恢复卸载到上述第二处理器。
    162.在本实施例中,在恢复网络通信之后,通过上述目标模型计算将部分或全部已经移除的上述业务数据从上述第一处理器中卸载到上述第二处理器中处理,以减轻上述第一处理器的负荷,提高上述网络设备中的业务数据的处理效率。
    163.s4041、在上述第二温度小于上述第一温度阈值的情况下,执行上述业务卸载策略。
    164.在本实施例中,根据上述第一温度和上述第一流量信息得到上述业务卸载策略,再根据上述业务卸载策略计算得到上述第二温度,判断执行上述业务卸载策略之后是否能使上述第二温度降低到预期值(或称小于上述第一温度阈值),若是,则执行上述业务卸载
    策略,实现在降低上述第二处理器温度的同时,避免业务数据的损伤,并增加温度变化的可预知性。
    165.为了进一步说明本技术实施例提供的业务数据的调度处理方法,本技术实施例还提供了一种业务数据的调度处理系统的系统架构示意图,请参阅图6。
    166.如图6所示,该系统中包括网络设备600、主机系统601、温控管理系统602、dpu603、逻辑/asic604、增强型中央处理器(enhanced central processing unit,ecpu)605、温控系统606。其中,上述网络设备600中包括上述主机系统601和dpu603,上述主机系统601和dpu603之间建立有消息通道,上述主机系统601中搭载有温控管理系统602,上述dpu603中搭载有逻辑/asic604和ecpu605,上述ecpu605为上述dpu603的嵌入式cpu或外围cpu,上述ecpu605搭载有温控系统606,上述ecpu605中处理有从上述主机系统601的处理器中卸载的业务数据。
    167.在进行温度控制的过程中,上述温控系统606可采集上述dpu603的温度信息和流量信息,在温度过高的情况下,根据该温度信息和流量信息计算出相应的温度控制策略,该温度控制策略包括前述中的业务卸载策略、qos策略或关闭以太网服务策略。
    168.上述温控系统通过上述主机系统601和dpu603之间的消息通道,将计算得到的上述温度控制策略下发给上述温控管理系统602,由上述温控管理系统602与上述逻辑/asic604通信,指示上述逻辑/asic604执行相应的温度控制策略,实现在降低上述dpu603的功耗和温度的同时,并尽可能地避免上述业务数据的损伤。
    169.为了进一步描述本技术实施例提供的业务数据的调度处理方法在上述系统中的应用,本技术实施例还提供了一种业务数据的调度处理方法的应用场景示意图,请参阅图7。
    170.如图7所示,在主机系统701侧,该主机系统701中搭载有温控管理系统702,该温控管理系统702中包含告警管理模块7021、温度采集模块7022和日志管理模块7023,该主机系统701中还搭载有dpu网卡功能配置模块7024和qos策略配置模块7025,其中网卡功能配置模块7024和qos策略配置模块7025与温控管理系统702之间建立有通信连接。在dpu703侧,该dpu703的嵌入式cpu中搭载有ecpu温控系统705(对应于图6中的温控系统606)和逻辑704,ecpu温控系统705和逻辑704之间建立有通信连接。其中ecpu温控系统705中包含温度控制策略计算模块7051、目标模型7052、温度采集模块7053和流量信息获取模块7054,逻辑704中包括qos策略配置模块7041、温度传感器7042、网卡卸载功能配置模块7043和流量统计模块7044。主机系统701与dpu703之间建立有消息通道,以供二者之间进行数据传输。
    171.在网络设备启动时,ecpu温控系统705即开始不断轮询dpu703中的当前流量信息和当前温度,并保存该当前流量信息和当前温度以作为下一次上述目标模型学习的历史数据。
    172.在进行温度控制的过程中,通过温度传感器7042监测dpu703的温度,由温度采集模块7053通过ecpu温控系统705和逻辑704之间的通信连接,获取到dpu703的温度(第一温度)并发送给温度控制策略计算模块7051。同时,流量信息获取模块7054通过ecpu温控系统705和逻辑704之间的通信连接,获取流量统计模块7044中的历史流量信息和当前流量信息(第一流量信息)并发送给目标模型7052进行训练,以提高该目标模型7052预测温度和输出温度控制策略的准确度。
    173.训练好的目标模型7052将第一温度和当前流量信息作为输入参数,计算得出业务卸载策略,并得到预测的第二温度。温度控制策略计算模块7051根据该第二温度判断执行该业务卸载策略之后的第二温度是否小于第一温度阈值,以确定是否能达到预期的降温效果。
    174.在确定执行该业务卸载策略能达到预期的降温效果的情况下,温度控制策略计算模块7051通过消息通道,向dpu网卡功能配置模块7024下发该业务卸载策略。对应的,dpu网卡功能配置模块7024获取该业务卸载策略,并与温控管理系统702通信,温控管理系统702通过驱动修改与该业务卸载策略匹配的寄存器的值,以指示该寄存器对应的业务卸载功能处于关闭的状态,并使dpu网卡功能配置模块7024通过上述消息通道指示逻辑704中的网卡卸载功能配置模块7043执行该业务卸载策略。
    175.在确定执行该业务卸载策略之后,也不能达到预期的降温效果的情况下,在网卡卸载功能配置模块7043执行该业务卸载策略之后,获取dpu703中处理的业务数据的信息,可以通过流量信息获取模块7054获取到流量统计模块7044中的当前流量信息(第二流量信息),也可以通过温度控制策略计算模块7051根据第一流量信息和该业务卸载策略计算得到该第二流量信息。根据该第二流量信息确定此时在dpu703中处理的业务数据的数量,在该业务数据的数量大于1的情况下,则继续计算新的业务卸载策略。在该业务数据的数量小于1的情况下,说明dpu703中已经将所有从主机系统701卸载下来的业务数据转移回主机系统701的处理器中处理,此时温度控制策略计算模块7051向qos策略配置模块7025下发qos策略。对应的,qos策略配置模块7025获取该qos策略,并与温控管理系统702通信,温控管理系统702通过驱动修改与该qos策略匹配的寄存器的值,以指示该寄存器对应的qos功能处于开启的状态,并使qos策略配置模块7025通过上述消息通道指示逻辑704中的qos策略配置模块7041执行该qos策略。可以理解的,dpu703中还运行有除上述业务数据之外的其他业务数据。
    176.可选的,在ecpu温控系统705可以设置两级温度报警阈值(即第一温度阈值和第二温度阈值),在第一温度大于第一温度阈值且小于第二阈值的情况下,在执行qos策略之后,多次获取dpu703的第三温度,统计在指定周期内第三温度大于第二温度阈值的次数,在该次数大于第一阈值的情况下,温度控制策略计算模块7051向dpu网卡功能配置模块7024下发关闭以太网服务策略。对应的,dpu网卡功能配置模块7024获取该关闭以太网服务策略,并与温控管理系统702通信,温控管理系统702通过驱动修改与该关闭以太网服务策略匹配的寄存器的值,以指示该寄存器对应的以太网服务功能处于关闭的状态,并使dpu网卡功能配置模块7024通过上述消息通道指示逻辑704中的网卡卸载功能配置模块7043执行该关闭以太网服务策略。此时,该网络设备处于网络通信中断状态,停止以太网收发包。
    177.随着温度的降低,可以通过多次获取dpu703的第四温度,统计在指定周期内第四温度大于第一温度阈值且小于第二温度阈值的次数,在该次数大于第二阈值的情况下,温度控制策略计算模块7051向dpu网卡功能配置模块7024下发开启以太网服务策略。对应的,dpu网卡功能配置模块7024获取该开启以太网服务策略,并与温控管理系统702通信,温控管理系统702通过驱动修改与该开启以太网服务策略匹配的寄存器的值,以指示该寄存器对应的以太网服务功能处于开启的状态,并使dpu网卡功能配置模块7024通过上述消息通道指示逻辑704中的网卡卸载功能配置模块7043执行该开启以太网服务策略。此时,该网络
    设备处于网络通信恢复状态,开启以太网收发包。
    178.在网络通信恢复之后,温度控制策略计算模块7051根据当前温度(第四温度)、初始流量信息、第三流量信息和目标模型7052计算可以将哪个/些已转移回主机系统701的处理器上运行的业务数据重新卸载到dpu703中进行处理,以减轻主机系统701的处理器的负荷,并提高该业务数据的处理效率。可以理解的,在指定周期内获取到的上述第四温度小于第一温度阈值的次数超过第三阈值的情况下,可逐渐将所有已转移回主机系统701的处理器上处理的业务数据卸载到dpu703中进行处理。
    179.此外,在进行温度控制的过程中,温控管理系统702中的告警管理模块7021、温度采集模块7022和日志管理模块7023与dpu网卡功能配置模块7024和qos策略配置模块7025通信,由告警管理模块7021根据dpu703的当前温度和执行的温度控制策略输出相应的告警信息,该告警信息包括告警级别、温度、用户配置阈值以及执行的温度控制策略,由温度采集模块7022采集到的温度用于告警判断、用户查询以及日志记录,由日志管理模块7023记录上述告警信息。
    180.为进一步地描述在以上温度控制的过程中,随着处理的业务数据和执行的业务卸载策略的改变,dpu703的温度的变化情况,本技术实施例还提供了一种dpu温度变化的示意图,请参阅图8。
    181.场景一中,图中包括主机系统801、dpu802、业务数据803、温度传感器804、温控系统805、业务数据806和业务数据807。其中业务数据806的内容和业务数据807的内容共同组成业务数据803,温度传感器804在不同的时刻采集到的温度不同。
    182.在最左侧图对应的时刻,业务数据803运行在dpu802上,且温度传感器804采集到的dpu802的温度小于前述中的第一温度阈值。随着处理时间的增长,在中间图对应的时刻,温度传感器804采集到的dpu802的温度大于前述中的第一温度阈值,可选的,温度传感器804采集到的dpu802的温度大于前述中的第一温度阈值且小于前述中的第二温度阈值,此时由温控系统805计算输出前述中的业务卸载策略,由dpu802中的相应模块开始执行该业务卸载策略。在最右侧图对应的时刻,dpu802将业务数据803中的部分业务数据转移回主机系统801中的处理器中进行处理,随着处理时间的增长,此时温度传感器804采集到的dpu802的温度小于上述第一温度阈值,已转移回主机系统801的处理器中运行的业务数据807逐渐被卸载到dpu802中运行。
    183.场景二中,图中包括主机系统801、dpu802、业务数据803、温度传感器804和温控系统805。其中温度传感器804在不同的时刻采集到的温度不同。
    184.在上方最左侧图对应的时刻,业务数据803运行在dpu802上,且温度传感器804采集到的dpu802的温度小于前述中的第一温度阈值。随着处理时间的增长,在上方中间图对应的时刻,温度传感器804采集到的dpu802的温度大于前述中的第一温度阈值,可选的,温度传感器804采集到的dpu802的温度大于前述中的第一温度阈值且小于前述中的第二温度阈值,此时由温控系统805计算输出前述中的业务卸载策略,由dpu802开始执行该业务卸载策略。在上方最右侧图对应的时刻,dpu802将业务数据803中的全部业务数据转移回主机系统801中的处理器中进行处理,即dpu802已经关闭全部卸载业务,此时温度传感器804采集到的dpu802的温度仍大于上述第一温度阈值。在下方最右侧图对应的时刻,由温控系统805下发qos策略,并由dpu802中的相应模块执行该qos策略。随着处理时间的增长,在下方中间
    图对应的时刻,温度传感器804采集到的dpu802的温度小于上述第一温度阈值,已转移回主机系统801的处理器中运行的业务数据803逐渐被卸载到dpu802中运行。
    185.场景三中,图中包括主机系统801、dpu802、业务数据803、温度传感器804和温控系统805。其中温度传感器804在不同的时刻采集到的温度不同。
    186.在最左侧图对应的时刻,dpu802已经关闭全部卸载业务且已执行qos策略进行降温,此时温度传感器804采集到的dpu802的温度仍然大于上述第一温度阈值。随着处理时间的增长,在中间图对应的时刻,温度传感器804采集到的dpu802的温度大于上述第二温度阈值,此时温控系统805下发关闭以太网服务策略,并由dpu802中的相应模块执行该关闭以太网服务策略。随着处理时间的增长,在最右侧图对应的时刻,温度传感器804采集到的dpu802的温度小于上述第一温度阈值,且在此过程中,已转移回主机系统801的处理器中运行的业务数据803逐渐被卸载到dpu802中运行。
    187.该系统中,在上述dpu803温度过高的情况下,通过目标模型的计算出相应的业务卸载策略,将部分或全部的卸载到上述dpu803的业务数据转移到上述主机系统801的处理器中进行处理,必要时,可在执行上述业务卸载策略之后执行qos策略或关闭以太网服务策略,降低上述dpu803的功率损耗和温度的同时,尽量避免业务数据的损伤,提高温度保护的效率。
    188.与上述图6相比,根据温控系统在网络设备中安装位置的不同,本技术实施例还提供了另一种业务数据的调度处理系统的系统架构示意图,请参阅图9。
    189.如图9所示,该系统中包括网络设备900、主机系统901、温控管理系统902、dpu903、逻辑/asic904、ecpu905、温控系统906。其中,上述网络设备900中包括上述主机系统901和dpu903,上述主机系统901和dpu903之间建立有消息通道,上述主机系统901中搭载有温控管理系统902和温控系统906,上述dpu903中搭载有逻辑/asic904和ecpu905,上述ecpu905为上述dpu903的嵌入式cpu或外围cpu,上述ecpu905中处理有从上述主机系统901的处理器中卸载的业务数据。
    190.在进行温度控制的过程中,上述温控系统906可通过上述消息通道获取上述dpu903的温度信息和流量信息,在温度过高的情况下,根据该温度信息和流量信息计算出相应的温度控制策略,该温度控制策略包括前述中的业务卸载策略、qos策略或关闭以太网服务策略。
    191.上述温控系统通过上述主机系统901和dpu903之间的消息通道,将计算得到的上述温度控制策略下发给上述温控管理系统902,由上述温控管理系统902与上述逻辑/asic904通信,指示上述逻辑/asic904执行相应的温度控制策略,实现在降低上述dpu903的功耗和温度的同时,并尽可能地避免上述业务数据的损伤。
    192.关于本技术实施例提供的业务数据的调度处理方法在上述系统中的应用,请对应参考前述图7中的内容,在此不做赘述。
    193.与上述图9相比,根据上述网络设备中dpu类型的不同,本技术实施例还提供了另一种业务数据的调度处理系统的系统架构示意图,请参阅图10。
    194.如图10所示,该系统中包括网络设备1000、主机系统1001、温控管理系统1002、dpu1003、soc芯片1004、ecpu1005、温控系统1006。其中,上述网络设备1000中包括上述主机系统1001和dpu1003,上述主机系统1001和dpu1003之间建立有消息通道,上述主机系统
    1001中搭载有温控管理系统1002和温控系统1006,上述dpu1003中搭载有soc芯片1004和ecpu1005,上述ecpu1005为上述dpu1003的嵌入式cpu或外围cpu,上述ecpu1005中处理有从上述主机系统1001的处理器中卸载的业务数据。
    195.在进行温度控制的过程中,上述温控系统1006可通过上述消息通道获取上述dpu1003的温度信息和流量信息,在温度过高的情况下,根据该温度信息和流量信息计算出相应的温度控制策略,该温度控制策略包括前述中的业务卸载策略、qos策略或关闭以太网服务策略。
    196.上述温控系统通过上述主机系统1001和dpu1003之间的消息通道,将计算得到的上述温度控制策略下发给上述温控管理系统1002,由上述温控管理系统1002与上述soc芯片1004通信,指示上述soc芯片1004执行相应的温度控制策略,实现在降低上述dpu1003的功耗和温度的同时,并尽可能地避免上述业务数据的损伤。
    197.关于本技术实施例提供的业务数据的调度处理方法在上述系统中的应用,请对应参考前述图7中的内容,在此不做赘述。
    198.与上述图10相比,根据温控系统在网络设备中安装位置的不同,本技术实施例还提供了另一种业务数据的调度处理系统的系统架构示意图,请参阅图11。
    199.如图11所示,该系统中包括网络设备1100、主机系统1101、温控管理系统1102、dpu1103、soc芯片1104、ecpu1105、温控系统1106。其中,上述网络设备1100中包括上述主机系统1101和dpu1103,上述主机系统1101和dpu1103之间建立有消息通道,上述主机系统1101中搭载有温控管理系统1102,上述dpu1103中搭载有soc芯片1104和ecpu1105,上述ecpu1105为上述dpu1103的嵌入式cpu或外围cpu,上述ecpu1105搭载有温控系统1106,上述ecpu1105中处理有从上述主机系统1101的处理器中卸载的业务数据。
    200.在进行温度控制的过程中,上述温控系统1106可通过上述消息通道获取上述dpu1103的温度信息和流量信息,在温度过高的情况下,根据该温度信息和流量信息计算出相应的温度控制策略,该温度控制策略包括前述中的业务卸载策略、qos策略或关闭以太网服务策略。
    201.上述温控系统通过上述主机系统1101和dpu1103之间的消息通道,将计算得到的上述温度控制策略下发给上述温控管理系统1102,由上述温控管理系统1102与上述soc芯片1104通信,指示上述soc芯片1104执行相应的温度控制策略,实现在降低上述dpu1103的功耗和温度的同时,并尽可能地避免上述业务数据的损伤。
    202.关于本技术实施例提供的业务数据的调度处理方法在上述系统中的应用,请对应参考前述图7中的内容,在此不做赘述。
    203.本技术实施例还提供了一种数据处理单元dpu业务数据的调度处理装置的结构示意图,请参阅图12。
    204.如图12所示,数据处理单元dpu业务数据的调度处理装置1200,应用于包含第一处理器和第二处理器的网络设备,运行于上述第一处理器的业务数据具有卸载到上述第二处理器的能力,上述第二处理器与网卡配合处理被卸载到上述第二处理器的业务数据,上述第二处理器为dpu,包括:
    205.第一获取单元1201,用于在上述第二处理器与网卡配合处理被卸载到上述第二处理器的业务数据的过程中,获取状态信息,上述状态信息包含用于表示上述第二处理器的
    温度的信息;
    206.第一确定单元1202,用于根据上述状态信息,确定是否将被卸载到上述第二处理器的业务数据转移回上述第一处理器。
    207.在一个可能的实施方式中,上述状态信息包括第一温度和第一流量信息,上述第一温度为上述第二处理器处于工作状态时的温度,上述第一流量信息包含用于描述上述第二处理器处理的业务数据的信息;
    208.上述第一确定单元1202,还用于在确定上述第一温度大于第一温度阈值的情况下,根据上述第一温度和上述第一流量信息,确定业务卸载策略,上述业务卸载策略用于指示将至少一个被卸载到上述第二处理器的业务数据转移回上述第一处理器;
    209.根据上述业务卸载策略,确定第二温度,上述第二温度为预测的在执行上述业务卸载策略后上述第二处理器的温度;
    210.在上述第二温度小于上述第一温度阈值的情况下,执行上述业务卸载策略。
    211.在一个可能的实施方式中,上述装置1200还包括:
    212.第二获取单元1203,用于获取目标模型,上述目标模型用于描述上述第二处理器处理的业务数据与上述第二处理器的温度之间的关系,上述目标模型根据历史流量信息和历史温度训练得到,上述历史流量信息包括上述第二处理器历史处理过的业务数据的信息,上述历史温度与上述历史流量信息之间具有匹配关系;
    213.上述第一流量信息包括:业务优先级、业务类型、业务流量以及业务新建速率;
    214.上述第一确定单元1202,还用于将上述第一温度、上述业务优先级、上述业务类型、上述业务流量以及上述业务新建速率输入上述目标模型,得到上述业务卸载策略。
    215.在一个可能的实施方式中,上述装置1200还包括:
    216.第一执行单元1204,用于在上述第二温度大于上述第一温度阈值的情况下,执行上述业务卸载策略;
    217.第二确定单元1205,用于根据上述业务卸载策略,确定第二流量信息,上述第二流量信息为用于描述预测的在执行上述业务卸载策略后上述第二处理器处理的业务数据的信息;
    218.第三确定单元1206,用于根据上述第二流量信息,确定执行上述业务卸载策略后上述第二处理器处理的业务数据的数量;
    219.第二执行单元1207,用于在上述数量小于1的情况下,执行服务质量qos策略。
    220.在一个可能的实施方式中,上述装置1200还包括:
    221.第四确定单元1208,用于确定上述第一温度小于第二温度阈值;
    222.第三获取单元1209,用于获取第三温度,上述第三温度为执行上述qos策略后上述第二处理器的温度;
    223.第一统计单元1210,用于统计上述第三温度大于上述第二温度阈值的第一次数;
    224.第三执行单元1211,用于在上述第一次数超过第一阈值的情况下,执行关闭以太网服务策略,上述关闭以太网服务策略用于指示上述网络设备进入网络通信中断状态。
    225.在一个可能的实施方式中,上述装置1200还包括:
    226.第四获取单元1212,用于获取第四温度,上述第四温度为在上述网络设备处于网络通信中断状态的情况下上述第二处理器的温度;
    227.第二统计单元1213,用于统计上述第四温度大于上述第一温度阈值且小于上述第二温度阈值的第二次数;
    228.第四执行单元1214,用于在上述第二次数超过第二阈值的情况下,执行开启以太网服务策略,上述开启以太网服务策略用于指示上述网络设备进入网络通信恢复状态。
    229.在一个可能的实施方式中,上述装置1200还包括:
    230.第五获取单元1215,用于获取初始流量信息和第三流量信息,上述初始流量信息为用于描述用户设置的在上述第二处理器中处理的业务数据的信息,或上述第二处理器默认处理的业务数据的信息,上述第三流量信息为用于描述上述网络设备处于网络通信恢复状态下上述第二处理器处理的业务数据的信息;
    231.第五确定单元1216,用于根据上述第四温度、上述初始流量信息、上述第三流量信息和上述目标模型,确定将至少一个已转移回上述第一处理器的业务数据卸载到上述第二处理器。
    232.根据本技术实施例,图12中所示的装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本技术的实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。
    233.本技术实施例还提供了一种电子设备,请参阅图13,图13是本技术实施例提供的一种电子设备的结构示意图。
    234.如图13所示,上述电子设备1300可以包括:一个或多个处理器1301、一个或多个存储器1302、一个或多个通信接口1303以及总线1304,上述处理器1301、存储器1302、通信接口1303通过总线1304连接。上述电子设备可以是前述图12中所示的装置1200。
    235.其中,存储器1302,用于存储程序;处理器1301用于执行上述存储器存储的上述程序,在上述程序被执行的情况下,上述处理器1301执行如上述数据处理单元dpu业务数据的调度处理方法中任意一种可能的实施方式中的方法。
    236.应当理解,在本技术实施例中,上述存储器1302包括但不限于是随机存储器(random access memory,ram)、只读存储器(read-only memory,rom)、可擦除可编程只读存储器(erasable programmable read only memory,eprom)、或便携式只读存储器(compact disc read-only memory,cdrom),以及除计算机内存及处理器缓存之外的外存储器,上述存储器1302的一部分还可以包括非易失性随机存取存储器,例如,存储器1302还可以存储设备类型的信息。
    237.上述处理器1301可以是一个或多个cpu,在处理器1301是一个cpu的情况下,该cpu可以是单核cpu,也可以是多核cpu;上述处理器1301还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、asic、fpga或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
    238.前述实施例中所执行的步骤可以基于上述图13所示的电子设备1300的结构实现,处理器1301可执行本技术实施例中提供的业务数据的调度处理方法的任意一个可选的实施例中所描述的实现方式,也可执行本技术实施例中所描述的业务数据的调度处理装置
    1200的实现方式,具体的,处理器1301可实现图12中所示装置中的第一获取单元1201、第一确定单元1202的功能。通信接口1303可实现图12中所示装置中的各单元之间的数据传递。存储器1302可在上述处理器1301执行本技术实施例中所描述的业务数据的调度处理装置1200的实现方式时提供缓存,也可存储上述处理器1301执行本技术实施例中所描述的业务数据的调度处理装置1200的实现方式所需要的计算机程序。
    239.在本技术的实施例还提供了一种计算机存储介质,上述计算机存储介质中存储有计算机程序,上述计算机程序包括程序指令,在上述程序指令被处理器执行的情况下,上述处理器可以实现上述图4的相关介绍中所示的方法。
    240.本技术实施例还提供了一种计算机程序产品,上述计算机程序产品包括:指令或计算机程序;在上述指令或上述计算机程序被执行的情况下,可以实现上述图4的相关介绍中所示的方法。
    241.本技术实施例还提供了一种芯片,上述芯片包括处理器,上述处理器用于执行指令,在上述处理器执行上述指令的情况下,使得上述芯片可以实现上述图4的相关介绍中所示的方法。可选的,上述芯片还包括通信接口,上述通信接口用于接收信号或发送信号。
    242.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以由计算机程序相关的硬件完成,上述计算机程序可存储于计算机存储介质中,上述计算机程序在执行时,可实现如上述各方法实施例的流程。而前述的计算机存储介质包括:只读存储器rom或随机存储记忆体ram、磁碟或者光盘等各种可存储计算机程序代码的介质。

    技术特征:
    1.一种数据处理单元dpu业务数据的调度处理方法,其特征在于,应用于包含第一处理器和第二处理器的网络设备,运行于所述第一处理器的业务数据具有卸载到所述第二处理器的能力,所述第二处理器与网卡配合处理被卸载到所述第二处理器的业务数据,所述第二处理器为dpu,所述方法包括:在所述第二处理器与网卡配合处理被卸载到所述第二处理器的业务数据的过程中,获取状态信息,所述状态信息包含用于表示所述第二处理器的温度的信息;根据所述状态信息,确定是否将被卸载到所述第二处理器的业务数据转移回所述第一处理器。2.根据权利要求1所述的方法,其特征在于,所述状态信息包括第一温度和第一流量信息,所述第一温度为所述第二处理器处于工作状态时的温度,所述第一流量信息包含用于描述所述第二处理器处理的业务数据的信息;所述根据所述状态信息,确定是否将被卸载到所述第二处理器的业务数据转移回所述第一处理器包括:在确定所述第一温度大于第一温度阈值的情况下,根据所述第一温度和所述第一流量信息,确定业务卸载策略,所述业务卸载策略用于指示将至少一个被卸载到所述第二处理器的业务数据转移回所述第一处理器;根据所述业务卸载策略,确定第二温度,所述第二温度为预测的在执行所述业务卸载策略后所述第二处理器的温度;在所述第二温度小于所述第一温度阈值的情况下,执行所述业务卸载策略。3.根据权利要求2所述的方法,其特征在于,在所述根据所述第一温度和所述第一流量信息,确定所述业务卸载策略之前,所述方法还包括:获取目标模型,所述目标模型用于描述所述第二处理器处理的业务数据与所述第二处理器的温度之间的关系,所述目标模型根据历史流量信息和历史温度训练得到,所述历史流量信息包括所述第二处理器历史处理过的业务数据的信息,所述历史温度与所述历史流量信息之间具有匹配关系;所述第一流量信息包括:业务优先级、业务类型、业务流量以及业务新建速率;所述根据所述第一温度和所述第一流量信息,确定所述业务卸载策略包括:将所述第一温度、所述业务优先级、所述业务类型、所述业务流量以及所述业务新建速率输入所述目标模型,得到所述业务卸载策略。4.根据权利要求2或3所述的方法,其特征在于,在所述根据所述业务卸载策略,确定第二温度之后,所述方法还包括:在所述第二温度大于所述第一温度阈值的情况下,执行所述业务卸载策略;根据所述业务卸载策略,确定第二流量信息,所述第二流量信息为用于描述预测的在执行所述业务卸载策略后所述第二处理器处理的业务数据的信息;根据所述第二流量信息,确定执行所述业务卸载策略后所述第二处理器处理的业务数据的数量;在所述数量小于1的情况下,执行服务质量qos策略。5.根据权利要求4所述的方法,其特征在于,在所述确定所述第一温度大于第一温度阈值之后,所述方法还包括:
    确定所述第一温度小于第二温度阈值;在所述执行服务质量qos策略之后,所述方法还包括:获取第三温度,所述第三温度为执行所述qos策略后所述第二处理器的温度;统计所述第三温度大于所述第二温度阈值的第一次数;在所述第一次数超过第一阈值的情况下,执行关闭以太网服务策略,所述关闭以太网服务策略用于指示所述网络设备进入网络通信中断状态。6.根据权利要求5所述的方法,其特征在于,在所述执行关闭以太网服务策略之后,所述方法还包括:获取第四温度,所述第四温度为在所述网络设备处于网络通信中断状态的情况下所述第二处理器的温度;统计所述第四温度大于所述第一温度阈值且小于所述第二温度阈值的第二次数;在所述第二次数超过第二阈值的情况下,执行开启以太网服务策略,所述开启以太网服务策略用于指示所述网络设备进入网络通信恢复状态。7.根据权利要求6所述的方法,其特征在于,在所述执行开启以太网服务策略之后,所述方法还包括:获取初始流量信息和第三流量信息,所述初始流量信息为用于描述用户设置的在所述第二处理器中处理的业务数据的信息,或所述第二处理器默认处理的业务数据的信息,所述第三流量信息为用于描述所述网络设备处于网络通信恢复状态下所述第二处理器处理的业务数据的信息;根据所述第四温度、所述初始流量信息、所述第三流量信息和所述目标模型,确定将至少一个已转移回所述第一处理器的业务数据卸载到所述第二处理器。8.一种数据处理单元dpu业务数据的调度处理装置,其特征在于,应用于包含第一处理器和第二处理器的网络设备,运行于所述第一处理器的业务数据具有卸载到所述第二处理器的能力,所述第二处理器与网卡配合处理被卸载到所述第二处理器的业务数据,所述第二处理器为dpu,所述装置包括:第一获取单元,用于在所述第二处理器与网卡配合处理被卸载到所述第二处理器的业务数据的过程中,获取状态信息,所述状态信息包含用于表示所述第二处理器的温度的信息;第一确定单元,用于根据所述状态信息,确定是否将被卸载到所述第二处理器的业务数据转移回所述第一处理器。9.根据权利要求8所述的装置,其特征在于,所述状态信息包括第一温度和第一流量信息,所述第一温度为所述第二处理器处于工作状态时的温度,所述第一流量信息包含用于描述所述第二处理器处理的业务数据的信息;所述第一确定单元,还用于在确定所述第一温度大于第一温度阈值的情况下,根据所述第一温度和所述第一流量信息,确定业务卸载策略,所述业务卸载策略用于指示将至少一个被卸载到所述第二处理器的业务数据转移回所述第一处理器;根据所述业务卸载策略,确定第二温度,所述第二温度为预测的在执行所述业务卸载策略后所述第二处理器的温度;在所述第二温度小于所述第一温度阈值的情况下,执行所述业务卸载策略。
    10.根据权利要求9所述的装置,其特征在于,所述装置还包括:第二获取单元,用于获取目标模型,所述目标模型用于描述所述第二处理器处理的业务数据与所述第二处理器的温度之间的关系,所述目标模型根据历史流量信息和历史温度训练得到,所述历史流量信息包括所述第二处理器历史处理过的业务数据的信息,所述历史温度与所述历史流量信息之间具有匹配关系;所述第一流量信息包括:业务优先级、业务类型、业务流量以及业务新建速率;所述第一确定单元,还用于将所述第一温度、所述业务优先级、所述业务类型、所述业务流量以及所述业务新建速率输入所述目标模型,得到所述业务卸载策略。11.根据权利要求9或10所述的装置,其特征在于,所述装置还包括:第一执行单元,用于在所述第二温度大于所述第一温度阈值的情况下,执行所述业务卸载策略;第二确定单元,用于根据所述业务卸载策略,确定第二流量信息,所述第二流量信息为用于描述预测的在执行所述业务卸载策略后所述网络设备处理的业务数据的信息;第三确定单元,用于根据所述第二流量信息,确定执行所述业务卸载策略后所述第二处理器处理的业务数据的数量;第二执行单元,用于在所述数量小于1的情况下,执行服务质量qos策略。12.根据权利要求11所述的装置,其特征在于,所述装置还包括:第四确定单元,用于确定所述第一温度小于第二温度阈值;第三获取单元,用于获取第三温度,所述第三温度为执行所述qos策略后所述第二处理器的温度;第一统计单元,用于统计所述第三温度大于所述第二温度阈值的第一次数;第三执行单元,用于在所述第一次数超过第一阈值的情况下,执行关闭以太网服务策略,所述关闭以太网服务策略用于指示所述网络设备进入网络通信中断状态。13.根据权利要求12所述的装置,其特征在于,所述装置还包括:第四获取单元,用于获取第四温度,所述第四温度为在所述网络设备处于网络通信中断状态的情况下所述第二处理器的温度;第二统计单元,用于统计所述第四温度大于所述第一温度阈值且小于所述第二温度阈值的第二次数;第四执行单元,用于在所述第二次数超过第二阈值的情况下,执行开启以太网服务策略,所述开启以太网服务策略用于指示所述网络设备进入网络通信恢复状态。14.根据权利要求13所述的装置,其特征在于,所述装置还包括:第五获取单元,用于获取初始流量信息和第三流量信息,所述初始流量信息为用于描述用户设置的在所述第二处理器中处理的业务数据的信息,或所述第二处理器默认处理的业务数据的信息,所述第三流量信息为用于描述所述网络设备处于网络通信恢复状态下所述第二处理器处理的业务数据的信息;第五确定单元,用于根据所述第四温度、所述初始流量信息、所述第三流量信息和所述目标模型,确定将至少一个已转移回所述第一处理器的业务数据卸载到所述第二处理器。15.一种电子设备,其特征在于,包括:存储器,用于存储程序;
    处理器,用于执行所述存储器存储的所述程序,在所述程序被所述处理器执行的情况下,所述处理器执行如权利要求1至7中任意一项所述的方法。16.一种计算机存储介质,其特征在于,所述计算机存储介质中存储有计算机程序,所述计算机程序包括程序指令,在所述程序指令被处理器执行的情况下,所述处理器执行如权利要求1至7中任意一项所述的方法。

    技术总结
    本申请公开了一种数据处理单元DPU业务数据的调度处理方法及相关产品,涉及计算机技术领域。该方法应用于包含第一处理器和第二处理器的网络设备,运行于第一处理器的业务数据具有卸载到第二处理器的能力,第二处理器与网卡配合处理被卸载到第二处理器的业务数据,上述第二处理器为DPU,包括:获取状态信息,状态信息包含用于表示第二处理器的温度的信息;根据状态信息,确定是否将被卸载到第二处理器的业务数据转移回第一处理器。本方法可以在不降低处理器处理数据的能力的情况下,通过移除处理器中处理的业务数据,降低该处理器的功耗和温度,避免因温度过高造成的器件损坏和业务数据损伤,从而提高温度保护效率。从而提高温度保护效率。从而提高温度保护效率。


    技术研发人员:耿学宇 孙路遥
    受保护的技术使用者:珠海星云智联科技有限公司
    技术研发日:2022.02.17
    技术公布日:2022/5/25
    转载请注明原文地址:https://tc.8miu.com/read-10310.html

    最新回复(0)