1.本发明涉及计算机领域,并且更具体地涉及一种池化异构云计算应用的热迁移的方法、装置、设备及可读介质。
背景技术:
2.异构加速器虚拟化技术是近年来非常热门的研究领域,对于云计算厂商而言,如果能够将虚拟化后的计算资源进一步拉远池化,与存储池化类似,将带来诸多好处:更灵活的异构加速器资源配置,物理机中,1块cpu挂1块gpu还是16块gpu,放64gb内存还是512gb内存对于不同的工作负载的需求通常不一致。对于云厂商而言,面对不同客户的不同偏好,不池化的解决方案可能需要频繁的装机才能实现。更高的gpu资源利用率,有很多任务,如机器学习推理任务并不需要整张gpu卡,不同时间段,不同的使用方式都会造成gpu卡在时空上存在空闲。通过gpu虚拟化/池化,为gpu的超售提供可能。更方便的gpu资源管理,服务器型号,gpu设备型号,算力的资源碎片等等使得gpu资源监控困难,通过池化集中管理有望降低难度。
3.池化异构计算是指异构资源通过池化的方式提供服务。异构计算加速器里面有多种数据:计算逻辑(如:gpu的cuda c、fpga的运行逻辑)、运算中使用的固定数据(如:cnn中的模型数据)、运行数据中使用的运算数据(如:物品识别推理中的图片)。完整的计算流程包括:(1)传输计算逻辑,(2)传输运算中使用的固定数据,(3)初始化应用,(4)主机应用程序将运算数据传输给异构计算资源,(5)异构计算资源计算,(6)异构计算资源将数据传回给主机,(7)主机应用程序完成后续处理。
4.池化异构云计算应用的热迁移是指应用跨物理服务器,实现应用包括运行状态的迁移,同时异构计算资源的运行状态不变,在迁移后该异构计算资源仍然可以正常对接新的主机应用程序。没有池化的异构迁移,只能在一台物理服务器之内进行,跨物理服务器就无法访问在正运行的异构计算资源。
5.池化异构云计算是目前比较新的概念,目前采用的方式为:(1)系统停止应用运行,(2)将应用逻辑迁移到新的服务器上,(3)启动应用重新计算,现有的解决方案需要停止计算过程,相当于冷迁移,异构计算资源上计算逻辑、固定数据、运算数据都需要重新传输、初始化或者计算,浪费大量时间。
技术实现要素:
6.有鉴于此,本发明实施例的目的在于提出一种池化异构云计算应用的热迁移的方法、装置、设备及可读介质,通过使用本发明的技术方案,能够实现池化异构云计算应用的热迁移,能够加快系统的迁移性能和提高异构资源使用的灵活度,发挥了池化异构计算的好处。
7.基于上述目的,本发明的实施例的一个方面提供了一种池化异构云计算应用的热迁移的方法,包括以下步骤:
8.响应于接收到集群管理系统发出的热迁移指令,迁出机向池化异构计算资源发送迁移的请求;
9.响应于所述池化异构计算资源接收到所述迁移的请求,所述池化异构计算资源停止当前业务;
10.迁出机将应用程序和异构计算资源用户态驱动打包成镜像,并将所述镜像发送到迁入机上;
11.迁入机启动所述镜像以使迁入机与所述池化异构计算资源连接,所述池化异构计算资源重新启动所述停止的业务以完成池化异构云计算应用的热迁移。
12.根据本发明的一个实施例,所述异构计算资源用户态驱动设置在用户态底层中。
13.根据本发明的一个实施例,所述异构计算资源用户态驱动中存储有用户态驱动的状态和计算的中间变量。
14.根据本发明的一个实施例,所述池化异构计算资源包括池化gpu和/或池化fpga。
15.本发明的实施例的另一个方面,还提供了一种池化异构云计算应用的热迁移的装置,装置包括:
16.发送模块,所述发送模块配置为响应于接收到集群管理系统发出的热迁移指令,迁出机向池化异构计算资源发送迁移的请求;
17.中断模块,所述中断模块配置为响应于所述池化异构计算资源接收到所述迁移的请求,所述池化异构计算资源停止当前业务;
18.打包模块,所述打包模块配置为迁出机将应用程序和异构计算资源用户态驱动打包成镜像,并将所述镜像发送到迁入机上;
19.启动模块,所述启动模块配置为迁入机启动所述镜像以使迁入机与所述池化异构计算资源连接,所述池化异构计算资源重新启动所述停止的业务以完成池化异构云计算应用的热迁移。
20.根据本发明的一个实施例,所述异构计算资源用户态驱动设置在用户态底层中。
21.根据本发明的一个实施例,所述异构计算资源用户态驱动中存储有用户态驱动的状态和计算的中间变量。
22.根据本发明的一个实施例,所述池化异构计算资源包括池化gpu和/或池化fpga。
23.本发明的实施例的另一个方面,还提供了一种计算机设备,该计算机设备包括:
24.至少一个处理器;以及
25.存储器,存储器存储有可在处理器上运行的计算机指令,指令由处理器执行时实现上述任意一项方法的步骤。
26.本发明的实施例的另一个方面,还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述任意一项方法的步骤。
27.本发明具有以下有益技术效果:本发明实施例提供的池化异构云计算应用的热迁移的方法,通过响应于接收到集群管理系统发出的热迁移指令,迁出机向池化异构计算资源发送迁移的请求;响应于所述池化异构计算资源接收到所述迁移的请求,所述池化异构计算资源停止当前业务;迁出机将应用程序和异构计算资源用户态驱动打包成镜像,并将所述镜像发送到迁入机上;迁入机启动所述镜像以使迁入机与所述池化异构计算资源连接,所述池化异构计算资源重新启动所述停止的业务以完成池化异构云计算应用的热迁移
的技术方案,能够实现池化异构云计算应用的热迁移,能够加快系统的迁移性能和提高异构资源使用的灵活度,发挥了池化异构计算的好处。
附图说明
28.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
29.图1为根据本发明一个实施例的池化异构云计算应用的热迁移的方法的示意性流程图;
30.图2为根据本发明一个实施例的池化异构云计算应用的热迁移的装置的示意图;
31.图3为根据本发明一个实施例的计算机设备的示意图;
32.图4为根据本发明一个实施例的计算机可读存储介质的示意图。
具体实施方式
33.为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。
34.基于上述目的,本发明的实施例的第一个方面,提出了一种池化异构云计算应用的热迁移的方法的一个实施例。图1示出的是该方法的示意性流程图。
35.如图1中所示,该方法可以包括以下步骤:
36.s1响应于接收到集群管理系统发出的热迁移指令,迁出机向池化异构计算资源发送迁移的请求。
37.s2响应于所述池化异构计算资源接收到所述迁移的请求,所述池化异构计算资源停止当前业务。
38.s3迁出机将应用程序和异构计算资源用户态驱动打包成镜像,并将所述镜像发送到迁入机上。
39.所述异构计算资源用户态驱动设置在用户态底层中,所述异构计算资源用户态驱动中存储有用户态驱动的状态和计算的中间变量。
40.s4迁入机启动所述镜像以使迁入机与所述池化异构计算资源连接,所述池化异构计算资源重新启动所述停止的业务以完成池化异构云计算应用的热迁移。
41.迁入机启动镜像后会通过异构计算资源用户态驱动连接到池化异构计算资源,迁入机再请求池化异构计算资源启动停止的业务后,池化异构计算资源会根据用户态驱动的状态和计算的中间变量继续进行计算。
42.实现上述方法需要一种新架构,新架构中系统内核已经不负责全部驱动,驱动中运行状态全部放在用户态中。驱动分为无运行状态的异构计算资源虚拟化内部驱动和有运行状态的异构计算资源用户态驱动。异构计算资源虚拟化内部驱动是固定的无状态的,与热迁移无关的部分。异构计算资源用户态驱动为有状态的部分,在虚拟化迁移时,会打包进镜像迁移到其他服务器上。
43.通过本发明的技术方案,能够实现池化异构云计算应用的热迁移,能够加快系统
的迁移性能和提高异构资源使用的灵活度,发挥了池化异构计算的好处。
44.在本发明的一个优选实施例中,所述异构计算资源用户态驱动设置在用户态底层中。
45.在本发明的一个优选实施例中,所述异构计算资源用户态驱动中存储有用户态驱动的状态和计算的中间变量。池化异构计算资源可以根据用户态驱动的状态和计算的中间变量继续之前停止的业务。
46.在本发明的一个优选实施例中,所述池化异构计算资源包括池化gpu和/或池化fpga。
47.本发明将异构计算驱动划分成无运行状态的异构计算资源虚拟化内部驱动和有运行状态的异构计算资源用户态驱动。异构计算资源虚拟化内部驱动是固定的无状态的,与热迁移无关的部分。异构计算资源用户态驱动为有状态的部分,在虚拟化迁移时,会打包进镜像迁移到其他服务器上。热迁移镜像启动时,触发异构资源重连接,并传输迁移后变动的主机信息,保障异构计算资源能够重连迁入机。通过上述方式,实现了池化异构云计算应用的热迁移,实现应用包括运行状态的迁移,同时异构计算资源的运行状态不变,在迁移后该异构计算资源仍然可以正常对接新的主机应用程序,加快了系统的迁移性能和提高了异构资源使用的灵活度,从另一方面发挥了池化异构计算的好处。
48.需要说明的是,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关硬件来完成,上述的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中存储介质可为磁碟、光盘、只读存储器(read-only memory,rom)或随机存取存储器(random access memory,ram)等。上述计算机程序的实施例,可以达到与之对应的前述任意方法实施例相同或者相类似的效果。
49.此外,根据本发明实施例公开的方法还可以被实现为由cpu执行的计算机程序,该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被cpu执行时,执行本发明实施例公开的方法中限定的上述功能。
50.基于上述目的,本发明的实施例的第二个方面,提出了一种池化异构云计算应用的热迁移的装置,如图2所示,装置200包括:
51.发送模块,所述发送模块配置为响应于接收到集群管理系统发出的热迁移指令,迁出机向池化异构计算资源发送迁移的请求;
52.中断模块,所述中断模块配置为响应于所述池化异构计算资源接收到所述迁移的请求,所述池化异构计算资源停止当前业务;
53.打包模块,所述打包模块配置为迁出机将应用程序和异构计算资源用户态驱动打包成镜像,并将所述镜像发送到迁入机上;
54.启动模块,所述启动模块配置为迁入机启动所述镜像以使迁入机与所述池化异构计算资源连接,所述池化异构计算资源重新启动所述停止的业务以完成池化异构云计算应用的热迁移。
55.在本发明的一个优选实施例中,所述异构计算资源用户态驱动设置在用户态底层中。
56.在本发明的一个优选实施例中,所述异构计算资源用户态驱动中存储有用户态驱
动的状态和计算的中间变量。
57.在本发明的一个优选实施例中,所述池化异构计算资源包括池化gpu和/或池化fpga。
58.基于上述目的,本发明实施例的第三个方面,提出了一种计算机设备。图3示出的是本发明提供的计算机设备的实施例的示意图。如图3所示,本发明实施例包括如下装置:至少一个处理器21;以及存储器22,存储器22存储有可在处理器上运行的计算机指令23,指令由处理器执行时实现以下方法:
59.响应于接收到集群管理系统发出的热迁移指令,迁出机向池化异构计算资源发送迁移的请求;
60.响应于所述池化异构计算资源接收到所述迁移的请求,所述池化异构计算资源停止当前业务;
61.迁出机将应用程序和异构计算资源用户态驱动打包成镜像,并将所述镜像发送到迁入机上;
62.迁入机启动所述镜像以使迁入机与所述池化异构计算资源连接,所述池化异构计算资源重新启动所述停止的业务以完成池化异构云计算应用的热迁移。
63.在本发明的一个优选实施例中,所述异构计算资源用户态驱动设置在用户态底层中。
64.在本发明的一个优选实施例中,所述异构计算资源用户态驱动中存储有用户态驱动的状态和计算的中间变量。
65.在本发明的一个优选实施例中,所述池化异构计算资源包括池化gpu和/或池化fpga。
66.基于上述目的,本发明实施例的第四个方面,提出了一种计算机可读存储介质。图4示出的是本发明提供的计算机可读存储介质的实施例的示意图。如图4所示,计算机可读存储介质31存储有被处理器执行时执行如下方法的计算机程序32:
67.响应于接收到集群管理系统发出的热迁移指令,迁出机向池化异构计算资源发送迁移的请求;
68.响应于所述池化异构计算资源接收到所述迁移的请求,所述池化异构计算资源停止当前业务;
69.迁出机将应用程序和异构计算资源用户态驱动打包成镜像,并将所述镜像发送到迁入机上;
70.迁入机启动所述镜像以使迁入机与所述池化异构计算资源连接,所述池化异构计算资源重新启动所述停止的业务以完成池化异构云计算应用的热迁移。
71.在本发明的一个优选实施例中,所述异构计算资源用户态驱动设置在用户态底层中。
72.在本发明的一个优选实施例中,所述异构计算资源用户态驱动中存储有用户态驱动的状态和计算的中间变量。
73.在本发明的一个优选实施例中,所述池化异构计算资源包括池化gpu和/或池化fpga。
74.此外,根据本发明实施例公开的方法还可以被实现为由处理器执行的计算机程
序,该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被处理器执行时,执行本发明实施例公开的方法中限定的上述功能。
75.此外,上述方法步骤以及系统单元也可以利用控制器以及用于存储使得控制器实现上述步骤或单元功能的计算机程序的计算机可读存储介质实现。
76.本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性,已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功能,但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。
77.在一个或多个示例性设计中,功能可以在硬件、软件、固件或其任意组合中实现。如果在软件中实现,则可以将功能作为一个或多个指令或代码存储在计算机可读介质上或通过计算机可读介质来传送。计算机可读介质包括计算机存储介质和通信介质,该通信介质包括有助于将计算机程序从一个位置传送到另一个位置的任何介质。存储介质可以是能够被通用或专用计算机访问的任何可用介质。作为例子而非限制性的,该计算机可读介质可以包括ram、rom、eeprom、cd-rom或其它光盘存储设备、磁盘存储设备或其它磁性存储设备,或者是可以用于携带或存储形式为指令或数据结构的所需程序代码并且能够被通用或专用计算机或者通用或专用处理器访问的任何其它介质。此外,任何连接都可以适当地称为计算机可读介质。例如,如果使用同轴线缆、光纤线缆、双绞线、数字用户线路(dsl)或诸如红外线、无线电和微波的无线技术来从网站、服务器或其它远程源发送软件,则上述同轴线缆、光纤线缆、双绞线、dsl或诸如红外线、无线电和微波的无线技术均包括在介质的定义。如这里所使用的,磁盘和光盘包括压缩盘(cd)、激光盘、光盘、数字多功能盘(dvd)、软盘、蓝光盘,其中磁盘通常磁性地再现数据,而光盘利用激光光学地再现数据。上述内容的组合也应当包括在计算机可读介质的范围内。
78.以上是本发明公开的示例性实施例,但是应当注意,在不背离权利要求限定的本发明实施例公开的范围的前提下,可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明实施例公开的元素可以以个体形式描述或要求,但除非明确限制为单数,也可以理解为多个。
79.应当理解的是,在本文中使用的,除非上下文清楚地支持例外情况,单数形式“一个”旨在也包括复数形式。还应当理解的是,在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。
80.上述本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优劣。
81.本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
82.所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子;在本发明实施例的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明
实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。
转载请注明原文地址:https://tc.8miu.com/read-2233.html