游戏策略模型的训练方法、装置、电子设备及存储介质与流程

    专利查询2025-11-09  30


    本公开涉及电子计算机及互联网,尤其涉及一种游戏策略模型的训练方法、装置、电子设备及存储介质。


    背景技术:

    1、本部分旨在为权利要求书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

    2、在电子游戏中,通常需要配置多种不同风格的npc(non-player character,非玩家角色),npc基于游戏策略模型与用户进行交互,为用户提供服务,包括但不限于与用户交流、与用户对抗或者辅助用户行动。

    3、相关技术中,通常基于用户数据对于npc进行训练,使npc模仿不同类型的用户,以得到多种不同风格的npc。然而,这种方案需要依赖于大量的用户数据,npc的风格及性能受到用户数据的数量和质量的限制较大。


    技术实现思路

    1、有鉴于此,本公开的目的在于提出一种游戏策略模型的训练方法、装置、电子设备及存储介质,至少在一定程度上解决相关技术中的技术问题之一。

    2、基于上述目的,本公开示例性实施例第一方面提供了一种游戏策略模型的训练方法,包括:

    3、获取若干不同的游戏奖励函数参数;

    4、将所述若干不同的游戏奖励函数参数分别作为待训练的游戏策略模型的输入数据的一部分,共同对所述待训练的游戏策略模型进行第一训练,至所述待训练的游戏策略模型收敛,得到第一训练后的游戏策略模型,其中,所述第一训练后的游戏策略模型用于控制非玩家角色以与玩家角色进行交互。

    5、基于同一发明构思,本公开示例性实施例第二方面提供了一种游戏策略模型的训练装置,包括:

    6、游戏奖励函数参数获取模块,被配置为获取若干不同的游戏奖励函数参数;

    7、游戏策略模型训练模块,被配置为将所述若干不同的游戏奖励函数参数分别作为待训练的游戏策略模型的输入数据的一部分,共同对所述待训练的游戏策略模型进行第一训练,至所述待训练的游戏策略模型收敛,得到第一训练后的游戏策略模型,其中,所述第一训练后的游戏策略模型用于控制非玩家角色以与玩家角色进行交互。

    8、基于同一发明构思,本公开示例性实施例第三方面提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所述的方法。

    9、基于同一发明构思,本公开示例性实施例第四方面提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使计算机执行如第一方面所述的方法。

    10、从上面所述可以看出,本公开实施例提供的游戏策略模型的训练方法、装置、电子设备及存储介质,该方法包括:获取若干不同的游戏奖励函数参数;将若干不同的游戏奖励函数参数分别作为待训练的游戏策略模型的输入数据的一部分,共同对待训练的游戏策略模型进行第一训练,至待训练的游戏策略模型收敛,得到第一训练后的游戏策略模型,其中,第一训练后的游戏策略模型用于控制非玩家角色以与玩家角色进行交互。其中,由于游戏奖励函数参数参与游戏策略模型的训练,游戏策略模型的参数与游戏奖励函数参数的相关性较高,且游戏策略模型能够适应不同游戏奖励函数参数,在此基础上,调整游戏奖励函数参数可以训练得到多种不同风格的游戏游戏策略模型,不依赖风格不同的用户数据。



    技术特征:

    1.一种游戏策略模型的训练方法,其特征在于,包括:

    2.根据权利要求1所述的方法,其特征在于,所述获取若干不同的游戏奖励函数参数,包括:

    3.根据权利要求2所述的方法,其特征在于,所述预设游戏奖励函数参数中包含若干项;

    4.根据权利要求2所述的方法,其特征在于,所述基于预设联合概率分布函数,得到新增游戏奖励函数参数,包括:

    5.根据权利要求1所述的方法,其特征在于,所述将所述若干不同的游戏奖励函数参数分别作为待训练的游戏策略模型的输入数据的一部分,共同对所述待训练的游戏策略模型进行第一训练,至所述待训练的游戏策略模型收敛,得到第一训练后的游戏策略模型,包括:

    6.根据权利要求5所述的方法,其特征在于,所述从所述游戏策略模型处于的游戏环境中获取第一游戏状态数据,包括:

    7.根据权利要求6所述的方法,其特征在于,所述方法还包括:

    8.根据权利要求6所述的方法,其特征在于,所述方法还包括:

    9.根据权利要求8所述的方法,其特征在于,所述方法还包括:

    10.根据权利要求5所述的方法,其特征在于,所述根据所述游戏奖励函数参数、所述游戏动作、所述第二游戏状态和所述游戏奖励,更新所述游戏策略模型的参数,至所述待训练的游戏策略模型收敛,得到第一训练后的游戏策略模型,包括:

    11.根据权利要求5所述的方法,其特征在于,所述第一游戏状态数据,包括:

    12.根据权利要求1所述的方法,其特征在于,所述方法还包括:

    13.一种游戏策略模型的训练装置,其特征在于,包括:

    14.一种电子设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求1至12任意一项所述的方法。

    15.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使计算机执行权利要求1至12任一所述方法。


    技术总结
    本公开提供一种游戏策略模型的训练方法、装置、电子设备及存储介质,方法包括:获取若干不同的游戏奖励函数参数;将若干不同的游戏奖励函数参数分别作为待训练的游戏策略模型的输入数据的一部分,共同对待训练的游戏策略模型进行第一训练,至待训练的游戏策略模型收敛,得到第一训练后的游戏策略模型,其中,第一训练后的游戏策略模型用于控制非玩家角色以与玩家角色进行交互。其中,由于游戏奖励函数参数参与游戏策略模型的训练,游戏策略模型的参数与游戏奖励函数参数的相关性较高,且游戏策略模型能够适应不同游戏奖励函数参数,在此基础上,调整游戏奖励函数参数可以训练得到多种不同风格的游戏游戏策略模型,不依赖风格不同的用户数据。

    技术研发人员:戴灿煌,关凯,范长杰,胡志鹏
    受保护的技术使用者:网易(杭州)网络有限公司
    技术研发日:
    技术公布日:2024/11/26
    转载请注明原文地址:https://tc.8miu.com/read-31830.html

    最新回复(0)