背景技术:
1、图1示出了用于使用参数服务器(ps)体系结构的机器学习(ml)训练的传统端到端解决方案。该ps体系结构包括使用交换机110通信地耦合的工作器100和参数服务器(ps)120。ps体系结构的端到端解决方案包括reduce-scatter和allgather算子。当作业开始时,如果系统使用远程直接存储器存取(rdma)可靠连接(rc)(rdma rc)(例如,因特网工程任务组(ietf)网络工作组rfc 5040“远程直接存储器存取协议规范”)作为网络传输协议,则工作器设立具有至少一个ps的rc队列对。图1示出worker1具有三个队列对(qp),并且qp连接到ps。worker2和worker3也利用三个qp,并且qp连接到ps。
2、在reduce-scatter算子中,工作器将数据的分区发送到对应的ps。例如,来自worker1的分区a1、来自worker2的分区a2和来自worker3的分区a3被发送到ps1,来自worker1的分区b1、来自worker2的分区b2和来自worker3的分区b3被发送到ps2,并且类似的模式适用于ps3。结果,数据跨多个参数服务器被散布,以利用例如位于参数服务器的图形处理单元(gpu)的并行计算。在接收到数据后,ps首先在来自工作器的数据上执行聚合。接下来,ps利用gpu来执行计算,例如对聚合的数据的优化。注意,参数服务器和工作器能被实现为过程(process),这些过程能在同一台机器或同一gpu上执行。
3、在allgather算子中,由gpu处理的数据被多播到工作器。参数服务器将相同的数据副本发送到工作器。在这个过程中,来自一个参数服务器的带宽被分布给所有的工作器,并且网络可能是瓶颈。
技术实现思路
1.一种设备,包括:
2.如权利要求1所述的设备,其中,所述多个后续分组中的至少一个包括与所述第一分组有效载荷相比具有更少字节的有效载荷。
3.如权利要求1-2中任一项所述的设备,其中,所述多个后续分组中的至少一个包括具有零字节的有效载荷。
4.如权利要求1-3中任一项所述的设备,其中,所述电路用于:
5.如权利要求1-4中任一项所述的设备,其中,所述电路用于:
6.如权利要求1-5中任一项所述的设备,其中,所述电路用于:
7.如权利要求1-6中任一项所述的设备,其中,所述电路用于:
8.如权利要求1-7中任一项所述的设备,其中,所述第一分组有效载荷与机器学习(ml)模型训练操作的allreduce、reducescatter或allgather操作中的一个或多个关联。
9.如权利要求1-8中任一项所述的设备,其中,所述电路包括:
10.如权利要求1-9中任一项所述的设备,其中,所述网络接口装置包括以下一个或多个:网络接口控制器(nic)、交换机、smartnic、路由器、转发元件、基础设施处理单元(ipu)、数据处理单元(dpu)或虚拟交换机。
11.一种方法,包括:
12.如权利要求11所述的方法,其中,所述多个后续分组中的至少一个包括与所述第一分组有效载荷相比具有更少字节的有效载荷。
13.如权利要求11-12中任一项所述的方法,包括:
14.如权利要求11-13中任一项所述的方法,包括:
15.如权利要求11-14中任一项所述的方法,包括:
16.一种非暂时性计算机可读介质,包括其上存储的指令,所述指令如果由网络接口装置的电路执行,则使所述网络接口装置的所述电路:
17.如权利要求16所述的计算机可读介质,其中,所述第二分组包括与所述第一分组有效载荷相比具有更少字节的有效载荷。
18.如权利要求16-17中任一项所述的计算机可读介质,包括其上存储的指令,所述指令如果由网络接口装置的电路执行,则使所述网络接口装置的所述电路:
19.如权利要求16-18中任一项所述的计算机可读介质,包括其上存储的指令,所述指令如果由网络接口装置的电路执行,则使所述网络接口装置的所述电路:
20.如权利要求16-19中任一项所述的计算机可读介质,包括其上存储的指令,所述指令如果由网络接口装置的电路执行,则使所述网络接口装置的所述电路:
