用于机器学习的硬件实现的点对点通信原语的制作方法

专利查询2026-02-13 14

实施例通常涉及数据处理，并且更特别地涉及经由通用图形处理单元进行数据处理。

背景技术：

1、当前的并行图形数据处理包括被开发来对图像数据执行特定的操作(例如，线性内插、曲面细分、光栅化、纹理映射、深度测试等)的系统和方法。在传统上，图形处理器使用固定功能计算单元来处理图形数据；然而，最近，图形处理器的部分变得可编程，使这样的处理器能够支持用于处理顶点和片段数据的各种各样的操作。

2、为了进一步增加性能，图形处理器一般实现处理技术，例如流水线，其试图贯穿图形流水线的不同部分并行地处理尽可能多的图形数据。具有单指令多线程(simt)架构的并行图形处理器被设计为使得在图形流水线中的并行处理的量最大化。在simt架构中，几组并行线程试图尽可能经常地一起同步地执行程序指令以增加处理效率。可在shane cook的“cuda programming”(第3章，37-51页(2013))和/或nicholas wilt的cuda handbook“acomprehensive guide to gpu programming”(章节2.6.2到3.1.2)(2013年6月)中找到simt架构的软件和硬件的一般概述。

技术实现思路

技术特征：

1.一种第一分布式训练节点的图形处理单元，所述图形处理单元包括：

2.如权利要求1所述的图形处理单元，其中，所述第一分布式训练节点被映射至分布式地址空间中的第一地址范围，而所述第二分布式训练节点被映射至所述分布式地址空间中的第二地址范围。

3.如权利要求2所述的图形处理单元，其中，所述结构接口被配置为：

4.如权利要求3所述的图形处理单元，其中，所述结构接口被配置为：

5.如权利要求4所述的图形处理单元，所述结构接口包括高速缓存，所述高速缓存用于在传输梯度数据之前或接收所述梯度数据之后存储所述梯度数据。

6.如权利要求4所述的图形处理单元，其中，所述结构接口具有被映射至所述存储器设备的至少部分的地址空间。

7.如权利要求6所述的图形处理单元，其中，所述计算块和所述结构接口具有统一的地址空间。

8.一种方法，包括：

9.如权利要求8所述的方法，进一步包括根据预定义的通信操作自动地传输所述梯度数据。

10.如权利要求9所述的方法，进一步包括：

11.如权利要求10所述的方法，进一步包括，经由所述结构接口：

12.如权利要求11所述的方法，进一步包括，经由所述结构接口：

13.如权利要求12所述的方法，进一步包括在传输梯度数据之前或在接收所述梯度数据之后将所述梯度数据存储在所述结构接口内的高速缓存中。

14.一种系统，包括：

15.如权利要求14所述的系统，其中，所述第一分布式训练节点被映射至分布式地址空间中的第一地址范围，而所述第二分布式训练节点被映射至所述分布式地址空间中的第二地址范围。

16.如权利要求15所述的系统，其中，所述结构接口被配置为：

17.如权利要求16所述的系统，其中，所述结构接口被配置为：

18.如权利要求17所述的系统，所述结构接口包括高速缓存，所述高速缓存用于在传输梯度数据之前或接收所述梯度数据之后存储所述梯度数据。

19.如权利要求17所述的系统，其中，所述结构接口具有被映射至所述存储器设备的至少部分的地址空间。

20.如权利要求19所述的系统，其中，所述计算块和所述结构接口具有统一的地址空间。

技术总结
一个实施例提供用于计算并分发数据以用于神经网络的分布式训练的系统，该系统包括：第一存储器，其存储包括机器学习框架的第一组指令；结构接口，其实现与该组可训练机器学习参数相关联的数据的传输和接收；第一组通用处理器核心，其执行第一组指令，该第一组指令提供训练工作流以用于针对可训练机器学习参数的梯度的计算并与第二组指令通信，该第二组指令有利于经由结构接口来传输和接收梯度；以及图形处理器，其执行与训练工作流相关联的计算操作以生成针对可训练机器学习参数的梯度。

技术研发人员：S·斯瑞哈兰,K·维迪雅纳坦,D·达斯
受保护的技术使用者：英特尔公司
技术研发日：
技术公布日：2024/11/26

转载请注明原文地址:https://tc.8miu.com/read-34253.html

专利

最新回复(0)