一种大模型推理方法、设备、存储介质及程序产品与流程

    专利查询2026-02-20  11


    本发明涉及计算机,尤其涉及一种大模型推理方法、设备、存储介质及程序产品。


    背景技术:

    1、在大模型的实际部署中,通常需要根据业务场景对基础大模型进行微调,以实现任务场景适配。

    2、目前,在现有的大模型推理部署中,针对各计算任务不同形状的输入张量和权重张量,通常采用相同的切分策略和并行策略,易导致大模型推理的效率较低,无法充分利用硬件资源。


    技术实现思路

    1、本发明提供了一种大模型推理方法、设备、存储介质及程序产品,可以在满足用户需求的前提下,更好的利用硬件设备资源,可以提升大模型推理的效率,可以提高资源利用率。

    2、根据本发明的一方面,提供了一种大模型推理方法,包括:

    3、获取实时的多用户粗粒度的批量推理请求,并采用混合调度策略对批量推理请求进行任务调度,获取多个细粒度的计算任务和对应的调度顺序;

    4、获取各所述计算任务对应的输入张量、输入张量形状、大模型权重张量及大模型权重张量形状,并根据所述输入张量形状和所述大模型权重张量形状,获取各所述计算任务对应的目标切分策略和目标并行策略;

    5、根据各所述计算任务对应的调度顺序、目标切分策略、目标并行策略、输入张量和大模型权重张量进行大模型推理,将所述计算任务映射到多个计算单元进行计算,获取所述批量推理请求对应的推理结果。

    6、根据本发明的另一方面,提供了大模型推理装置,包括:

    7、任务调度模块,用于获取实时的多用户粗粒度的批量推理请求,并采用混合调度策略对批量推理请求进行任务调度,获取多个细粒度的计算任务和对应的调度顺序;

    8、策略确定模块,用于获取各所述计算任务对应的输入张量、输入张量形状、大模型权重张量及大模型权重张量形状,并根据所述输入张量形状和所述大模型权重张量形状,获取各所述计算任务对应的目标切分策略和目标并行策略;

    9、任务计算模块,用于根据各所述计算任务对应的调度顺序、目标切分策略、目标并行策略、输入张量和大模型权重张量进行大模型推理,将所述计算任务映射到多个计算单元进行计算,获取所述批量推理请求对应的推理结果。

    10、根据本发明的另一方面,提供了一种电子设备,所述电子设备包括:

    11、至少一个处理器,以及

    12、与所述至少一个处理器通信连接的存储器;其中,

    13、所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例所述的大模型推理方法。

    14、根据本发明的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序用于使处理器执行时实现本发明任一实施例所述的大模型推理方法。

    15、根据本发明的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本发明任一实施例所述的大模型推理方法。

    16、本发明实施例的技术方案,通过获取实时的多用户粗粒度的批量推理请求,并采用混合调度策略对批量推理请求进行任务调度,获取多个细粒度的计算任务和对应的调度顺序;获取各计算任务对应的输入张量、输入张量形状、大模型权重张量及大模型权重张量形状,并根据输入张量形状和大模型权重张量形状,获取各计算任务对应的目标切分策略和目标并行策略;根据各计算任务对应的调度顺序、目标切分策略、目标并行策略、输入张量和大模型权重张量进行大模型推理,将计算任务映射到多个计算单元进行计算,获取批量推理请求对应的推理结果,通过采用混合调度策略进行推理任务调度,并根据输入张量形状和大模型权重张量形状,确定最优的目标切分策略和目标并行策略,可以在满足用户需求的前提下,更好的利用硬件设备资源,可以提升大模型推理的效率,可以提高资源利用率。

    17、应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。



    技术特征:

    1.一种大模型推理方法,其特征在于,包括:

    2.根据权利要求1所述的方法,其特征在于,获取各所述计算任务对应的大模型权重张量,包括:

    3.根据权利要求2所述的方法,其特征在于,还包括:

    4.根据权利要求1所述的方法,其特征在于,采用混合调度策略对批量推理请求进行任务调度,获取多个细粒度的计算任务和对应的调度顺序,包括:

    5.根据权利要求1所述的方法,其特征在于,根据各所述计算任务对应的调度顺序、目标切分策略、目标并行策略、输入张量和大模型权重张量进行大模型推理,将所述计算任务映射到多个计算单元进行计算,获取所述批量推理请求对应的推理结果,包括:

    6.根据权利要求5所述的方法,其特征在于,根据各所述计算任务对应的调度顺序、目标并行策略和通用矩阵乘数据流进行大模型推理,将所述计算任务映射到多个计算单元进行计算,获取所述批量推理请求对应的推理结果,包括:

    7.根据权利要求1所述的方法,其特征在于,根据所述输入张量形状和所述大模型权重张量形状,获取各所述计算任务对应的目标切分策略和目标并行策略,包括:

    8.一种电子设备,其特征在于,所述电子设备包括:

    9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序用于使处理器执行时实现权利要求1-7中任一项所述的大模型推理方法。

    10.一种计算机程序产品,其特征在于,包括计算机程序,所述计算机程序在被处理器执行时实现权利要求1-7中任一项所述的大模型推理方法。


    技术总结
    本发明涉及计算机技术领域,公开了一种大模型推理方法、设备、存储介质及程序产品。该方法包括:获取批量推理请求,并采用混合调度策略对批量推理请求进行任务调度,获取多个计算任务和对应的调度顺序;获取各计算任务对应的输入张量及形状、大模型权重张量及形状,并根据输入张量形状和大模型权重张量形状,获取各计算任务对应的目标切分策略和目标并行策略;根据各计算任务对应的调度顺序、目标切分策略、目标并行策略、输入张量和大模型权重张量进行大模型推理,将计算任务映射到多个计算单元进行计算,获取批量推理请求对应的推理结果。本实施例的方案,可以更好的利用硬件设备资源,可以提升大模型推理的效率,可以提高资源利用率。

    技术研发人员:王凤明,韩杨杨,李翔
    受保护的技术使用者:北京燧原智能科技有限公司
    技术研发日:
    技术公布日:2024/11/26
    转载请注明原文地址:https://tc.8miu.com/read-34485.html

    最新回复(0)