基于深度学习的流水线冷启动优化系统及方法

专利查询2025-06-05 72

本发明涉及分布式系统，具体地，涉及一种基于深度学习的流水线冷启动优化系统及方法。

背景技术：

1、无服务器计算是云计算领域的重大范式转变，强调自动扩展、事件驱动架构和按使用付费计费模式。深度学习(deep learning,dl)在各个行业中的应用日益广泛，需要更有效的方法来部署经过训练的模型并大规模提供深度学习推理服务(deep learninginference service,dlis)。无服务器推理的概念将无服务器计算的优势与部署dl模型的特定需求相结合，从而创建了一种大规模交付dlis的创新方法。这种新兴方式有望使dl应用程序更易于访问、可扩展且更具成本效益。对于无服务器推理，dlis的底层函数由接收用户请求触发，随后启动封装不同预训练模型的容器。此调用过程可以启动新容器(即冷启动)或重用现有容器(即热启动)，如图1所示。冷启动需要彻底的准备措施，因为需要创建新容器并将应用程序逻辑加载到内存中。因此，与热启动相比，冷启动通常更耗时。此外，考虑到资源限制，为每个dlis维护足够数量的热容器是不切实际的，这使得冷启动成为无服务器平台不可避免的方面。

2、减轻冷启动开销是无服务器计算的一个关键挑战，促使各种研究进行了广泛的探索。冷启动主要包括两个阶段：运行时加载和模型加载。

3、一方面，许多方法专注于通过镜像分发、容器轻量级等减少运行时加载延迟。例如，sock提出了一种针对传统容器的简化优化方法。另一方面，替代方法旨在通过函数预热或实例共享来减少运行时加载延迟。例如，pagurus被提议通过与其他函数共享一个热但空闲的容器来缓解冷启动。然而，这些方法在处理dlis时效果会降低。它们的主要重点是简化运行时加载阶段，而忽略了模型加载引起的延迟。optimus设计了一种全面的函数间模型转换策略，旨在减轻模型加载引起的延迟。optimus已证明在转换同类别模型方面很有效。然而，在转换不同类型的模型(例如从cnn到transformers)时，它的延迟甚至比直接从头开始的方法更高。

技术实现思路

1、针对现有技术中的缺陷，本发明的目的是提供一种基于深度学习的流水线冷启动优化系统及方法。

2、根据本发明提供的一种基于深度学习的流水线冷启动优化系统，包括：

3、模型分区引擎，采用垂直分区方法将深度学习推理服务划分为多个切片；

4、基于空闲容器估计的调度器，使用基于历史模式的段相似性的预测机制预测未来的空闲容器状态，制定用于调度切片的重用策略；

5、基于相似性的容器匹配器，评估基于空闲容器估计的调度器的重用策略，识别并调度空闲容器。

6、优选的，所述模型分区引擎包括生成一个垂直分区方案，以顺序、重叠的管道方式将深度学习推理服务划分为一定细粒度的切片和预热切片；所述切片能够并行加载和执行。

7、优选的，所述基于空闲容器估计的调度器包括关注请求和空闲容器的模式，并根据模式预测空闲容器以制定调度策略；所述空闲容器的模式包括整体周期性模式和局部变异性模式。

8、优选的，所述基于相似性的容器匹配器包括根据资源隔离以及每个容器中加载的运行时和模型的变化受到深度学习推理服务的依赖性和配置的影响使用热但空闲的容器避免冷启动，并使用zygote容器重用空闲容器。

9、优选的，所述系统将各个预设类型的深度学习推理服务的分区切片分配至同一台服务器执行。

10、根据本发明提供的一种基于深度学习的流水线冷启动优化方法，包括：

11、步骤s1：令模型分区引擎采用垂直分区方法将深度学习推理服务划分为多个切片；

12、步骤s2：令基于空闲容器估计的调度器使用基于历史模式的段相似性的预测机制预测未来的空闲容器状态，制定用于调度切片的重用策略

13、步骤s3：令基于相似性的容器匹配器评估基于空闲容器估计的调度器的重用策略，识别并调度空闲容器，完成冷启动的优化过程。

14、优选的，所述模型分区引擎包括生成一个垂直分区方案，以顺序、重叠的管道方式将深度学习推理服务划分为一定细粒度的切片和预热切片；所述切片能够并行加载和执行。

15、优选的，所述基于空闲容器估计的调度器包括关注请求和空闲容器的模式，并根据模式预测空闲容器以制定调度策略；所述空闲容器的模式包括整体周期性模式和局部变异性模式。

16、优选的，所述基于相似性的容器匹配器包括根据资源隔离以及每个容器中加载的运行时和模型的变化受到深度学习推理服务的依赖性和配置的影响使用热但空闲的容器避免冷启动，并使用zygote容器重用空闲容器。

17、优选的，所述方法将各个预设类型的深度学习推理服务的分区切片分配至同一台服务器执行。

18、与现有技术相比，本发明具有如下的有益效果：

19、1、本发明确定了ric的规律，全面的分析了ric之间的潜在关联性，并设计了一种基于ric使用模式的预测模型，通过分割降低了无服务平台中的深度学习推理服务的冷启动延迟；与现有技术相比，本发明提供了更优的容器复用机制，能够评估请求量和空闲容器数量的供需关系，并进一步基于容器内运行时和模型的相似度将空闲容器复用以提高资源效率，避免冷启动。

20、2、本发明通过减小模型大小来进一步减少模型加载的延迟，采用垂直分区方法将dlis划分为由层组成的多个切片，每个切片都以顺序、重叠的流水线方式预热以抵消冷启动延迟并减少切片之间的通信开销，基于ric的整体周期性使用注意机制，并根据历史模式的段相似性预测未来的ric状态，制定了用于调度切片的重用建议。

21、3、本发明提出的容器重用策略评估了运行时和结构相似性，解决了当前仅关注运行时加载的重用方法的一个关键缺点；由于优化了模型加载，因此本发明可以无缝集成到现有的冷启动优化框架中，具备广阔的应用场景。

22、4、本发明提出了一种的模型分割框架，专为无服务器平台上的dlis设计，旨在降低服务冷启动延迟。与现有算法openfaas,sock,tetris,pagurus,和optimus相比，本发明提出的框架分别减少冷启动时延49.32％,47.5％,41.32％,42.9％,和28.47％，节省了成本的开销，提高了工作效率。

23、本发明的其他有益效果，将在具体实施方式中通过具体技术特征和技术方案的介绍来阐述，本领域技术人员通过这些技术特征和技术方案的介绍，应能理解所述技术特征和技术方案带来的有益技术效果。

技术特征：

1.一种基于深度学习的流水线冷启动优化系统，其特征在于，包括：

2.根据权利要求1所述的基于深度学习的流水线冷启动优化系统，其特征在于，所述模型分区引擎包括生成一个垂直分区方案，以顺序、重叠的管道方式将深度学习推理服务划分为一定细粒度的切片和预热切片；所述切片能够并行加载和执行。

3.根据权利要求1所述的基于深度学习的流水线冷启动优化系统，其特征在于，所述基于空闲容器估计的调度器包括关注请求和空闲容器的模式，并根据模式预测空闲容器以制定调度策略；所述空闲容器的模式包括整体周期性模式和局部变异性模式。

4.根据权利要求1所述的基于深度学习的流水线冷启动优化系统，其特征在于，所述基于相似性的容器匹配器包括根据资源隔离以及每个容器中加载的运行时和模型的变化受到深度学习推理服务的依赖性和配置的影响使用热但空闲的容器避免冷启动，并使用zygote容器重用空闲容器。

5.根据权利要求1所述的基于深度学习的流水线冷启动优化系统，其特征在于，所述系统将各个预设类型的深度学习推理服务的分区切片分配至同一台服务器执行。

6.一种基于深度学习的流水线冷启动优化方法，其特征在于，包括：

7.根据权利要求6所述的基于深度学习的流水线冷启动优化方法，其特征在于，所述模型分区引擎包括生成一个垂直分区方案，以顺序、重叠的管道方式将深度学习推理服务划分为一定细粒度的切片和预热切片；所述切片能够并行加载和执行。

8.根据权利要求6所述的基于深度学习的流水线冷启动优化方法，其特征在于，所述基于空闲容器估计的调度器包括关注请求和空闲容器的模式，并根据模式预测空闲容器以制定调度策略；所述空闲容器的模式包括整体周期性模式和局部变异性模式。

9.根据权利要求6所述的基于深度学习的流水线冷启动优化方法，其特征在于，所述基于相似性的容器匹配器包括根据资源隔离以及每个容器中加载的运行时和模型的变化受到深度学习推理服务的依赖性和配置的影响使用热但空闲的容器避免冷启动，并使用zygote容器重用空闲容器。

10.根据权利要求6所述的基于深度学习的流水线冷启动优化方法，其特征在于，所述方法将各个预设类型的深度学习推理服务的分区切片分配至同一台服务器执行。

技术总结
本发明提供了一种基于深度学习的流水线冷启动优化系统及方法，系统包括模型分区引擎，采用垂直分区方法将深度学习推理服务划分为多个切片；基于空闲容器估计的调度器，使用基于历史模式的段相似性的预测机制预测未来的空闲容器状态，制定用于调度切片的重用策略；基于相似性的容器匹配器，评估基于空闲容器估计的调度器的重用策略，识别并调度空闲容器。本发明确定了RIC的规律，全面的分析了RIC之间的潜在关联性，并设计了一种基于RIC使用模式的预测模型，通过分割降低了无服务平台中的深度学习推理服务的冷启动延迟。

技术研发人员：钱诗友,段佳昂,曹健,薛广涛
受保护的技术使用者：上海交通大学
技术研发日：
技术公布日：2024/11/26

转载请注明原文地址:https://tc.8miu.com/read-29108.html

专利

最新回复(0)