1.本发明涉及机器学习领域,具体涉及一种基于强化学习的多智能混合式协同优化方法。
背景技术:
2.强化学习是一种基于与环境交互的,通过试错来学习做决策的机器学习方法,这个方法具有普适性,在金融量化、计算机视觉和交通控制等场景都有应用。相关技术往往涉及到多个智能体同时进行决策,共同解决一个整体的问题。然而如何实现智能体之间的协同决策优化仍是个难题。
3.例如在交通控制领域,多路口智能体的协调控制策略主要分为集中式和分布式两类。集中式是将所有智能体的决策行为联合建模并统一优化,存在两点困境:一是算法复杂度随智能体数目的增加而爆炸式增长;二是可扩展性受限,无法进行模型移植。分布式是融合本路口及邻接路口的交通状态与信号状态更新单智能体的状态空间,并采用独立优化的方式实现多智能体协同。然而,此类方法的智能体交互明显不足,无法保障全局最优性。
技术实现要素:
4.有鉴于此,本发明实施提供了一种基于强化学习的多智能混合式协同优化方法。
5.根据第一方面,本发明实施例提供一种基于强化学习的多智能混合式协同优化方法,包括如下步骤:设置基于dqn的局部智能体,所述局部智能体为任一应用场景中单独对节点子问题进行决策的智能体;设置基于dqn的中心智能体,所述中心智能体为从全局层面对所述局部智能体进行策略调整的一个智能体;所述局部智能体通过优化局部节点实现分布控制,所述优化局部节点包括获取相应节点的当前状态数据输入至节点强化学习模型进行处理,输出节点所有动作的q值,基于ε-greedy策略选择动作,并将所述动作作用于相应节点,得到相应节点的下一状态数据以及回报值;所述中心智能体通过评估局部智能体决策行为的优劣实现集中控制,所述评估局部智能体决策行为的优劣包括获取全局状态数据输入至全局强化学习模型进行处理,输出给每个局部智能体的评价,得到全局下一状态数据以及回报值;每个局部智能体更新节点强化学习模型;中心智能体更新全局强化学习模型。
6.根据第二方面,本发明实施例提供一种基于强化学习的信号控制模型的设计方法,所述模型包括:特征提取模块,利用卷积神经网络捕捉图像类信息的关键特征,并与数值类特性拼接为状态空间后输入至映射关系挖掘模块;映射关系挖掘模块,用于挖掘交通状态与潜在回报的映射模式,将来自特征提取模块的状态空间输入全连接层进行处理,再将得到的映射模式与当前相位信息输入至相位门控模块;相位门控模块,用于在模型训练阶段挖掘不同相位情况下的最佳输出,搭建个体相位分布式训练决策模型,宏观决策时利用当前相位对应的决策模型确定决策行为。
7.根据第三方面,本发明实施例提供一种基于强化学习的信号控制模型训练方法,
包括如下步骤:获取多条历史样本;对于状态数据中的相位和决策动作的每种组合,设置一个单独的存储区域;对于所述多条历史样本,依据其数据中的相位-动作组合放入相应的存储区域;根据预设从每个区域抽取的样本量,从每个所述存储区域随机抽取等量样本,组成训练样本数据集;根据所述训练样本数据集中每一条样本中的当前状态数据以及对应的输出、下一状态数据以及回报值更新如第二方面或第二方面任一实施方式所述的信号控制模型参数。
8.可选地,获取多条历史样本,包括:获取当前状态数据;将所述当前状态数据输入至如第二方面或第二方面任一实施方式所述的信号控制模型得到对应的决策数据;基于决策数据对环境施加动作使环境转移到下一状态并获得来自环境的回报;将所述当前状态数据、对应的决策数据、下一状态数据以及回报值组成一条样本;通过与环境的多次交互获取多条历史样本;
9.根据第四方面,本发明实施例提供一种基于强化学习的干道多智能混合式协同决策的信号优化方法,包括如下步骤:设置基于dqn的局部智能体,所述局部智能体为多个控制干道上单路口的智能体;设置基于dqn的中心智能体,所述中心智能体为从全局层面对所述局部智能体进行策略调整的一个智能体;所述局部智能体通过优化局部节点实现分布控制,所述优化局部节点包括获取相应路口当前状态数据输入至如第二方面或第二方面任一实施方式所述的信号控制模型进行处理,输出单路口所有动作的q值,基于ε-greedy策略选择动作,并将所述动作作用于相应路口,得到相应路口的下一状态数据以及回报值;所述中心智能体通过评估局部智能体决策行为的优劣实现集中控制,所述评估局部智能体决策行为的优劣包括获取全局状态数据输入至全局信号控制模型进行处理,输出给每个局部智能体的评价,得到全局下一状态数据以及回报值;每个局部智能体用如第三方面或第三方面任一实施方式所述的信号控制模型训练方法更新单路口如第二方面或第二方面任一实施方式所述的信号控制模型;中心智能体用梯度下降更新全局信号控制模型。
10.可选地,设置局部智能体,包括:定义局部智能体状态为相应路口所有进口道承载车辆数、出口道承载车辆数以及当前相位数据;定义局部智能体输出为相应路口交通信号保持当前相位或切换到下一相位;定义局部智能体回报为相应路口进口道排队长度之和的相反数,加上来自中心智能体的评价。
11.可选地,设置中心智能体,包括:定义中心智能体状态为全局所有车道承载车辆数以及所有路口当前相位数据;定义中心智能体输出为反馈给每个局部智能体的评价;定义中心智能体回报为相交道路进口道的排队长度、干道进口道的排队长度以及干道停车次数的线性加权组合。
12.本发明技术方案,具有如下优点:
13.(1)本发明融合分布式和集中式两种协同策略的优势提出了一种多智能混合式协同优化方法:局部智能体仅进行相应局部节点的决策,中心智能体基于全局状态评价局部智能体与全局目标的一致性,并向局部智能体反馈评价,该架构在通过智能体之间的交互合作最大化全局回报的同时也保留了局部智能体独立决策的能力,降低了算法复杂度。
14.(2)针对具体的信号优化问题,相位信息有着高于其他状态信息的重要地位,信号控制模型中的相位门控模块通过不同相位分布式训练,确保了相位在决策中的关键作用。
15.(3)系统运行中,智能体与环境交互会产生多样化的相位-动作组合样本,而每种
组合的出现概率差异很大,随机采样策略存在低频率的相位-动作方案样本量不足的风险,导致欠拟合现象,为此该信号控制模型训练方法中将不同相位-动作组合样本存储于独立记忆库,训练时从多个记忆库中等量采集样本,保证不同情况下能得到均衡训练。
附图说明
16.为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍:
17.图1为本发明实施例中基于强化学习的多智能协同优化方法的流程图;
18.图2为本发明实施例中基于强化学习的信号控制模型的原理框图;
19.图3为本发明实施例中基于强化学习的信号控制模型中特征提取模块的一个示例图;
20.图4为本发明实施例中基于强化学习的信号控制模型中映射关系挖掘模块的一个示例图;
21.图5为本发明实施例中基于强化学习的信号控制模型中相位门控模块的一个示例图;
22.图6为本发明实施例中基于强化学习的信号控制模型训练方法的流程图;
23.图7为本发明实施例中基于强化学习的信号控制模型训练方法的一个示例图;
24.图8为本发明实施例中基于强化学习的信号控制模型训练方法中获取多条历史样本的一个示例图;
25.图9为本发明实施例中基于强化学习的干道多智能混合式协同决策的信号优化方法的一个具体示例架构图。
具体实施方式
26.下面将结合附图对本发明的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
27.本发明实施例提供一种基于强化学习的多智能协同优化方法,如图1所示,包括如下步骤:
28.设置基于dqn的局部智能体,所述局部智能体为任一应用场景中单独对节点子问题进行决策的智能体。
29.示例性地,对于不同的应用场景,局部智能体的定义不同。当应用场景为多人游戏场景,那么局部智能体是控制每个玩家的强化学习智能体,其智能体设计可以是以游戏场景为状态,游戏操作为动作,单人得分加上来自中心智能体的评价为回报。当应用场景为多路口交通控制场景,那么局部智能体是每个路口处单独控制本路口交通信号的强化学习智能体,其智能体设计可以是以本路口所有进口道承载车辆数为状态,保持或切换当前相位为动作,本路口所有进口道排队长度之和的相反数加上来自中心智能体的评价为回报。本实施例对应用场景以及智能体设计方式不做限定,本领域技术人员可以根据需要确定。
30.设置基于dqn的中心智能体,所述中心智能体为从全局层面对所述局部智能体进
行策略调整的一个智能体。
31.示例性地,对于不同的应用场景,中心智能体的定义不同。当应用场景为多人游戏场景,那么中心智能体是协同所有玩家的强化学习智能体,其智能体设计可以是以游戏场景为状态,给每个玩家的附加分数为输出,所有玩家是否通关为回报。当应用场景为多路口交通控制场景,那么中心智能体是协同所有路口交通信号的强化学习智能体,其智能体设计可以是以所有车道承载车辆数为状态,给每个局部智能体的评价为输出,所有车道排队长度之和的相反数为回报。本实施例对应用场景以及智能体设计方式不做限定,本领域技术人员可以根据需要确定。
32.所述局部智能体通过优化局部节点实现分布控制,所述优化局部节点包括获取相应节点的当前状态数据输入至节点强化学习模型进行处理,输出单路口所有动作的q值,基于ε-greedy策略选择动作,并将所述动作作用于相应路口,得到相应节点的下一状态数据以及回报值。
33.所述中心智能体通过评估局部智能体决策行为的优劣实现集中控制,所述评估局部智能体决策行为的优劣包括获取全局状态数据输入至全局强化学习模型进行处理,输出给每个局部智能体的评价,得到全局下一状态数据以及回报值。
34.示例性地,节点强化学习模型和全局强化学习模型为dqn架构,神经网络由输入层,三个128神经元的隐藏层和输出层构成。
35.每个局部智能体更新节点强化学习模型。
36.示例性地,在每一次局部智能体优化局部节点的过程中,将当前状态数据、对应的决策数据、下一状态数据以及来自环境的回报与来自中心智能体的评价之和组成一条样本,从而得到多条样本。将多条样本输入至强化学习模型,对强化学习模型进行训练以及神经网络参数更新。
37.中心智能体更新全局强化学习模型。
38.示例性地,在每一次中心智能体评估局部智能体决策行为的优劣的过程中,将当前状态数据、对应的输出、下一状态数据以及全局回报值组成一条样本,从而得到多条样本。将多条样本输入至强化学习模型,对强化学习模型进行训练以及神经网络参数更新。
39.本实施例提供的多智能混合式协同优化方法融合了分布式和集中式两种协同策略的优势:局部智能体仅进行相应局部节点的决策,中心智能体基于全局状态评价局部智能体与全局目标的一致性,并向局部智能体反馈评价,该架构在通过智能体之间的交互合作最大化全局回报的同时也保留了局部智能体独立决策的能力,降低了算法复杂度。
40.本发明实施例提供一种基于强化学习的信号控制模型的设计方法,如图2所示,所述模型包括:
41.特征提取模块,利用卷积神经网络捕捉图像类信息的关键特征,并与数值类特性拼接为状态空间后输入至映射关系挖掘模块。
42.示例性地,如图3所示,状态数据包括相应路口图像、所有进口道车辆等待时间、所有进口道排队长度以及当前相位数据等。将图像经过8
×
8卷积神经网络,4
×
4卷积神经网络和faltten层处理后与所有进口道车辆等待时间、所有进口道排队长度、当前相位数据等数值类特性拼接作为状态空间。
43.映射关系挖掘模块,用于挖掘交通状态与潜在回报的映射模式,将来自特征提取
模块的状态空间输入全连接层进行处理,再将得到的映射模式与当前相位信息输入至相位门控模块。
44.示例性地,如图4所示,搭建含有三个隐藏层,每个隐藏层128个神经元的全连接神经网络,采用adam优化算法,将来自特征提取模块的状态空间输入该神经网络架构进行处理。
45.相位门控模块,用于在模型训练阶段挖掘不同相位情况下的最佳输出,搭建个体相位分布式训练决策模型,宏观决策时利用当前相位对应的决策模型确定所有动作的q值。
46.示例性地,如图5所示,若交通信号含有四个相位:0东西直行、1东西左转、2南北直行、3南北左转,给每个相位设置一个单独的决策模型,来自映射关系挖掘模块的数据和来自样本的当前相位数据将会被输入到与相位相对应的决策模型中进行处理。
47.本实施例提供的基于强化学习的信号控制模型的设计方法避免了相位信息由于庞大的状态空间而被忽略的问题。针对具体的信号优化问题,相位信息有着高于其他状态信息的重要地位,信号控制模型中的相位门控模块通过不同相位分布式训练,确保了相位在决策中的关键作用。
48.本发明实施例提供一种基于强化学习的信号控制模型训练方法,如图6所示,包括如下步骤:
49.获取多条历史样本。
50.示例性地,通过监控摄像头等途径获取交通流数据,提取出状态数据;利用搭建好的信号控制模型对状态数据进行处理得到决策数据;将决策数据作用于交通信号,使交通流转移到下一状态并计算出所获回报;将这样一组交通状态、决策数据、下一状态和对应的回报组成一条样本,重复上述过程得到多条历史样本。
51.对于状态数据中的相位和决策动作的每种组合,设置一个单独的存储区域。
52.示例性地,如图7所示,若交通信号有0东西直行、1东西左转、2南北直行、3南北左转四种相位,决策数据有0保持当前相位或1切换到下一相位两种动作,则相位和动作共有00,01,10,11,20,21,30,31八种组合,因此设置八个存储区域。
53.对于所述多条历史样本,依据其数据中的相位-动作组合放入相应的存储区域。
54.示例性地,若某一条样本的交通状态中相位为1东西直行,决策数据为0保持当前相位,则它将被放入10对应的存储区域中,依次对每条样本进行相同的操作。
55.根据预设从每个区域抽取的样本量,从每个所述存储区域随机抽取等量样本,组成训练样本数据集。
56.示例性地,如图7所示,若预设从每个区域抽取的样本量是1,则会从上述八个存储区域中都随机抽取一条样本,得到八条样本组成训练样本数据集。本实施例对预设从每个区域抽取的样本量大小不做限定,本领域技术人员可以根据需要确定。
57.根据所述训练样本数据集中每一条样本中的当前状态数据以及对应的输出、下一状态数据以及回报值更新如上述实施例中的信号控制模型的参数。
58.本实施例提供的信号控制模型训练方法有利于智能体在每种情况下得到均匀而充分的训练。系统运行中,智能体与环境交互会产生多样化的相位-动作组合样本,而每种组合的出现概率差异很大,随机采样策略存在低频率的相位-动作方案样本量不足的风险,导致欠拟合现象,为此该信号控制模型训练方法中将不同相位-动作组合样本存储于独立
记忆库,训练时从多个记忆库中等量采集样本,保证不同情况下能得到均衡训练。
59.作为本实施例一种可选的实施方式,获取多条历史样本,如图8所示,包括:获取当前状态数据;将所述当前状态数据输入至如上述实施例中的信号控制模型得到对应的决策数据;基于决策数据对环境施加动作使环境转移到下一状态并获得来自环境的回报;将所述当前状态数据、对应的决策数据、下一状态数据以及回报值组成一条样本;通过与环境的多次交互获取多条历史样本。
60.示例性地,通过监控摄像头等途径获取交通流数据,提取出状态数据;搭建如上述实施例中的信号控制模型,并对状态数据进行处理得到决策数据是保持当前相位;保持当前相位,交通流转移到下一状态并计算出所获回报;将这样一组交通状态、决策数据、下一状态和对应的回报组成一条样本,重复上述过程得到多条历史样本。
61.本发明实施例提供一种基于强化学习的干道多智能混合式协同决策的信号优化方法,包括如下步骤:
62.设置局部智能体,所述局部智能体为多个控制干道上单路口的智能体。
63.示例性地,定义局部智能体状态为相应路口所有进口道承载车辆数、出口道承载车辆数以及当前相位数据;定义局部智能体动作为相应路口交通信号保持当前相位或切换到下一相位;定义局部智能体回报为相应路口进口道排队长度之和的相反数,加上来自中心智能体的评价。
64.设置中心智能体,所述中心智能体为从全局层面对所述局部智能体进行策略调整的一个智能体。
65.示例性地,定义中心智能体状态为全局所有车道承载车辆数以及所有路口当前相位数据;定义中心智能体输出为反馈给每个局部智能体的评价;定义中心智能体回报为相交道路进口道的排队长度、干道进口道的排队长度以及干道停车次数的线性加权组合。
66.所述局部智能体通过优化局部节点实现分布控制,所述优化局部节点包括获取相应路口当前状态数据输入至如上述实施例中的信号控制模型进行处理,输出单路口所有动作的q值,基于ε-greedy策略选择动作,并将所述动作作用于相应路口,并将所述决策动作作用于相应路口,得到相应路口的下一状态数据以及回报值。
67.所述中心智能体通过评估局部智能体决策行为的优劣实现集中控制,所述评估局部智能体决策行为的优劣包括获取全局状态数据输入至全局信号控制模型进行处理,输出给每个局部智能体的评价,得到全局下一状态数据以及回报值。
68.示例性地,如图9所示,对于有三个路口的干道,给每个路口设置一个局部智能体,分别为局部智能体1,局部智能体2,局部智能体3。每个智能体获取相应路口的状态输入如上述实施例中的信号控制模型进行处理,输出每种动作的q值,基于ε-greedy策略选择动作并作用于相应路口,并获得来自环境的回报。接着,中心智能体获取全局状态输入至全局信号控制模型进行处理,给每个局部智能体反馈一个评价并收到来自环境的全局回报。其中全局信号控制模型为一般性的dqn架构,神经网络由输入层,三个128神经元的隐藏层和输出层构成。局部智能体的目标是最大化来自环境的回报与来自中心智能体的评价之和,而中心智能体的目标是最大化全局回报。
69.每个局部智能体用如上述实施例中的信号控制模型训练方法更新单路口如上述实施例中的信号控制模型。具体参见上述实施例对应部分,在此不再赘述。
70.中心智能体用梯度下降更新全局信号控制模型。
71.示例性地,中心智能体获取全局状态输入至全局信号控制模型进行处理,给每个局部智能体反馈一个评价并收到来自环境的全局回报r;将所述每一组全局状态数据、对应的输出、下一状态数据以及回报值组成一条样本;通过与环境的多次交互获取多条历史样本;计算出当前全局状态的价值v和下一状态的价值v
next
,则td_error为:
72.td_error=r γ*v
next
–v73.其中,贴现因子γ∈[0,1]控制了即时回报相对于未来回报的重要程度。利用td_error反向传播,用于更新全局信号控制模型网络的参数和权重。
[0074]
上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
技术特征:
1.一种基于强化学习的干道多智能混合式协同决策的信号优化方法,其特征在于,包括以下步骤:设置基于dqn的局部智能体,所述局部智能体为多个控制干道上单路口的智能体;设置基于dqn的中心智能体,所述中心智能体为从全局层面对所述局部智能体进行策略调整的一个智能体;所述局部智能体通过优化局部节点实现分布控制,所述优化局部节点包括获取相应路口当前状态数据输入至单路口强化学习模型进行处理,输出单路口所有动作的q值,基于ε-greedy策略选择动作,并将所述动作作用于相应路口,得到相应路口的下一状态数据以及回报值;所述中心智能体通过评估局部智能体决策行为的优劣实现集中控制,所述评估局部智能体决策行为的优劣包括获取全局状态数据输入至全局强化学习模型进行处理,输出给每个局部智能体的评价,得到全局下一状态数据以及回报值;每个局部智能体更新单路口强化学习模型;中心智能体更新全局强化学习模型。2.根据权利要求1所述的方法,其特征在于,设置基于dqn的局部智能体,包括:定义局部智能体状态为相应路口所有进口道承载车辆数、出口道承载车辆数以及当前相位数据;定义局部智能体动作为相应路口交通信号保持当前相位或切换到下一相位;定义局部智能体回报为相应路口进口道排队长度之和的相反数,加上来自中心智能体的评价。3.根据权利要求2所述的方法,其特征在于,所述基于dqn的中心智能体,包括:定义中心智能体状态为全局所有车道承载车辆数以及所有路口当前相位数据;定义中心智能体输出为反馈给每个局部智能体的评价;定义中心智能体回报为相交道路进口道的排队长度、干道进口道的排队长度以及干道停车次数的线性加权组合。4.根据权利要求1-3任一所述的干道多智能混合式协同决策的信号优化方法,其特征在于,所述单路口强化学习模型,包括:特征提取模块,利用卷积神经网络捕捉图像类信息的关键特征,并与数值类特性拼接为状态空间后输入至映射关系挖掘模块;映射关系挖掘模块,用于挖掘交通状态与潜在回报的映射模式,将来自特征提取模块的状态空间输入全连接层进行处理,再将得到的映射模式与当前相位信息输入至相位门控模块;相位门控模块,用于在模型训练阶段挖掘不同相位情况下的最佳输出,搭建个体相位分布式训练决策模型,宏观决策时利用当前相位对应的决策模型确定决策行为。5.根据权利要求4所述的方法,其特征在于,所述更新单路口强化学习模型,包括:将每一组当前状态数据、对应的输出、下一状态数据以及回报值组成一条样本;通过与环境的多次交互获取多条历史样本;利用所述多条历史样本更新目标强化学习模型的模型参数。6.根据权利要求5所述的方法,其特征在于,所述利用所述多条历史样本更新目标强化
学习模型的模型参数,包括:利用分区记忆方法获取均匀分布的训练样本数据集;根据所述训练样本数据集中每一条样本中的当前状态数据以及对应的输出、下一状态数据以及回报值更新所述目标强化学习模型的模型参数;所述分区记忆,包括如下步骤:对于状态数据中的相位和决策动作的每种组合,设置一个单独的存储区域;对于所述多条历史样本,依据其数据中的相位-动作组合放入相应的存储区域;根据预设从每个区域抽取的样本量,从每个所述存储区域随机抽取等量样本,组成训练样本数据集。
技术总结
本发明公开了一种基于强化学习的多智能混合式协同优化方法。包括如下步骤:设置基于DQN的局部智能体,所述局部智能体为任一应用场景中单独对节点子问题进行决策的智能体;设置基于DQN的中心智能体,所述中心智能体为从全局层面对所述局部智能体进行策略调整的一个智能体;所述局部智能体通过优化局部节点实现分布控制;所述中心智能体通过评估局部智能体决策行为的优劣实现集中控制;每个局部智能体更新节点强化学习模型;中心智能体更新全局强化学习模型。通过实施本发明,能够在最大化全局回报的同时保留局部智能体独立决策的能力,降低了算法复杂度。降低了算法复杂度。降低了算法复杂度。
技术研发人员:马东方 陈曦 金盛 王殿海
受保护的技术使用者:浙江大学
技术研发日:2022.02.21
技术公布日:2022/5/25
转载请注明原文地址:https://tc.8miu.com/read-5667.html