实施例通常涉及数据处理,并且更特别地涉及经由通用图形处理单元进行数据处理。
背景技术:
1、当前的并行图形数据处理包括被开发来对图像数据执行特定的操作(例如,线性内插、曲面细分、光栅化、纹理映射、深度测试等)的系统和方法。在传统上,图形处理器使用固定功能计算单元来处理图形数据;然而,最近,图形处理器的部分变得可编程,使这样的处理器能够支持用于处理顶点和片段数据的各种各样的操作。
2、为了进一步增加性能,图形处理器一般实现处理技术,例如流水线,其试图贯穿图形流水线的不同部分并行地处理尽可能多的图形数据。具有单指令多线程(simt)架构的并行图形处理器被设计为使得在图形流水线中的并行处理的量最大化。在simt架构中,几组并行线程试图尽可能经常地一起同步地执行程序指令以增加处理效率。可在shane cook的“cuda programming”(第3章,37-51页(2013))和/或nicholas wilt的cuda handbook“acomprehensive guide to gpu programming”(章节2.6.2到3.1.2)(2013年6月)中找到simt架构的软件和硬件的一般概述。
技术实现思路
1.一种第一分布式训练节点的图形处理单元,所述图形处理单元包括:
2.如权利要求1所述的图形处理单元,其中,所述第一分布式训练节点被映射至分布式地址空间中的第一地址范围,而所述第二分布式训练节点被映射至所述分布式地址空间中的第二地址范围。
3.如权利要求2所述的图形处理单元,其中,所述结构接口被配置为:
4.如权利要求3所述的图形处理单元,其中,所述结构接口被配置为:
5.如权利要求4所述的图形处理单元,所述结构接口包括高速缓存,所述高速缓存用于在传输梯度数据之前或接收所述梯度数据之后存储所述梯度数据。
6.如权利要求4所述的图形处理单元,其中,所述结构接口具有被映射至所述存储器设备的至少部分的地址空间。
7.如权利要求6所述的图形处理单元,其中,所述计算块和所述结构接口具有统一的地址空间。
8.一种方法,包括:
9.如权利要求8所述的方法,进一步包括根据预定义的通信操作自动地传输所述梯度数据。
10.如权利要求9所述的方法,进一步包括:
11.如权利要求10所述的方法,进一步包括,经由所述结构接口:
12.如权利要求11所述的方法,进一步包括,经由所述结构接口:
13.如权利要求12所述的方法,进一步包括在传输梯度数据之前或在接收所述梯度数据之后将所述梯度数据存储在所述结构接口内的高速缓存中。
14.一种系统,包括:
15.如权利要求14所述的系统,其中,所述第一分布式训练节点被映射至分布式地址空间中的第一地址范围,而所述第二分布式训练节点被映射至所述分布式地址空间中的第二地址范围。
16.如权利要求15所述的系统,其中,所述结构接口被配置为:
17.如权利要求16所述的系统,其中,所述结构接口被配置为:
18.如权利要求17所述的系统,所述结构接口包括高速缓存,所述高速缓存用于在传输梯度数据之前或接收所述梯度数据之后存储所述梯度数据。
19.如权利要求17所述的系统,其中,所述结构接口具有被映射至所述存储器设备的至少部分的地址空间。
20.如权利要求19所述的系统,其中,所述计算块和所述结构接口具有统一的地址空间。
