基于注意力机制的CPS系统强化学习控制方法

专利查询2024-06-29 79

基于注意力机制的cps系统强化学习控制方法
技术领域
1.本发明属于cps系统学习控制方法技术领域，具体涉及基于注意力机制的cps系统强化学习控制方法。

背景技术：

2.在当前的cps系统中，如何结合传感器的感知信息，设计一个对于cps系统的合理的智能的控制算法已经成为了一个大家关注许久的问题了。在智能算法的设计中，强化学习作为一种位于学术最前沿的算法，收到了广泛的关注。虽然比起传统的pid控制等控制方法，强化学习，尤其是q学习，是基于机器学习的算法的黑盒模型，导致其可解释性弱于传统模型，但强化学习不需要根据模型重新设计，适应性强，可以更容易的训练，效果更好更智能等一系列特性使其备受喜爱。
3.但是存在一个很重要的问题，就是传统的强化学习模型本质上是对于学习的一种解释模型，而没有考虑到应用到cps系统时所需要的修改，而且由于复杂的cps系统中具有大量的传感器，让强化学习模型的训练本身更加的困难，从而影响模型能获得的提升效果。

技术实现要素：

4.本发明所要解决的技术问题在于针对上述现有技术的不足，提供基于注意力机制的cps系统强化学习控制方法，以解决上述背景技术中提出的问题。
5.为解决上述技术问题，本发明采用的技术方案是：基于注意力机制的cps系统强化学习控制方法，包括以下步骤：
6.s1、控制对象通过策略网络选择一个合适的策略，并且对环境进行执行；
7.s2、环境在策略的执行下产生变化和回应，生成一个奖励；
8.s3、预设的多个传感器对环境进行一个探测，获得了多个传感器探测信息；
9.s4、将传感器探测信息传入自注意力网络，同时自注意力网络自动获取控制对象上一步的行为，以传感器探测信息和控制对象上一步的行为作为基准，计算需要的传感器信息；
10.s5、将获取的传感器信息的奖励和当前的状态同时输入策略网络，更新策略网络的梯度，并且作为策略网络的输入去选择下一时间段的策略，重复进行即可完成学习控制方法。
11.进一步的，学习控制方法还分为训练模式和执行模式。
12.进一步的，所述执行模式包括以下步骤：
13.s101、在时间k时，控制对象的状态为环境的状态采取行为uk∈a；
14.s102、在该行为的影响下，环境的状态：控制
对象的状态：奖励值：
15.s103、对于此时间k+1的环境状态传感器捕捉环境中的信息，获得:
16.s104、基于此时间段的传感器信息与上一时间段的行为uk，使用自注意力机制的模型获得筛选过之后的传感器信息：的模型获得筛选过之后的传感器信息：
17.s105、结合上面的信息，控制对象开始推测下一时间段应该执行的行动：
18.s106、执行动作u
(k+1)
，回到s101中；
19.其中，s
env
代表环境的状态；s
agent
代表控制对象的状态；s
sensor
代表传感器获得的各项参数的状态；
20.a代表有限的动作集，即控制对象可以采取的行动；p代表转移概率，即采取一个动作后，转移到的概率；r为奖励函数；γ代表折扣因子；
21.传感器读取环境：f
sensor
:s
env
→ssensor
；
22.环境发生变化：f
env
:s
env
×a→senv
；
23.奖励函数：f
reward
:s
agent
×a→
r；
24.状态变化函数：f
state
:s
agent
×a→sagent
；
25.还设置有能通过机器学习获得的端对端模型：自注意力机制的神经网络：σ
attention
:s
sensor
×a→satt_sensor
；控制对象选取行为策略的神经网络：σ
agent
:s
att_sensor
×sagent
→a26.s
sensor
代表传感器感应外部环境获得的信息；
27.s
att_sensor
代表通过自注意力机制之后留下来的传感器信息。
28.进一步的，所述训练模式包括以下步骤：
29.s201、在时间k时，控制对象的状态为环境的状态环境的状态采取行为uk∈a；
30.s202、在该行为的影响下，环境的状态：控制对象的状态：奖励值：奖励值：
31.s203、对于此时间k+1的环境状态传感器捕捉环境中的信息，获得:
32.s204、基于此时间段的传感器信息与上一时间段的行为uk，使用自注意力机制的模型获得筛选过之后的传感器信息：制的模型获得筛选过之后的传感器信息：
33.s205、结合上面的信息，控制对象开始推测下一时间段应该执行的行动：
34.s206、执行动作u
(k+1)
，回到s101中，收集每次的数据配对：
[0035][0036][0037]
s207、将数据配对作为数据集，对于神经网络σ
attention
和σ
agent
进行联合梯度下降，将下降后的参数作为新的神经网络，回到第一步，直到收敛。
[0038]
本发明与现有技术相比具有以下优点：
[0039]
本发明通过先把自注意力机制引入传感器的信息筛选中，并且把上一个时间段的动作也作为筛选的一部分，对其进行考虑，在使用强化学习算法解决实际的控制问题的时候，该方法对于奖励的设计要求更加的宽松和便利，即部分信息可以通过传感器的隐知识学到；同时由于设置了传感器属于的注意力机制的筛选，从而可以在构建cps系统时增加大量的传感器，使其适应更多的应用场景，拓宽了其使用范围。
具体实施方式
[0040]
下面将对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0041]
本发明提供一种技术方案：基于注意力机制的cps系统强化学习控制方法，包括以下步骤：
[0042]
s1、控制对象通过策略网络选择一个合适的策略，并且对环境进行执行；
[0043]
s2、环境在策略的执行下产生变化和回应，生成一个奖励；
[0044]
s3、预设的多个传感器对环境进行一个探测，获得了多个传感器探测信息；
[0045]
s4、将传感器探测信息传入自注意力网络，同时自注意力网络自动获取控制对象上一步的行为，以传感器探测信息和控制对象上一步的行为作为基准，计算需要的传感器信息；
[0046]
s5、将获取的传感器信息的奖励和当前的状态同时输入策略网络，更新策略网络的梯度，并且作为策略网络的输入去选择下一时间段的策略，重复进行即可完成学习控制方法。
[0047]
具体的，包括一个主要的控制对象agent，该控制对象包含一个自动选取控制策略的策略选择器网络，包括一个外界环境，主要为该控制方法应用的外界场景；
[0048]
当控制对象agent在环境中执行策略的时候，会与环境产生一些交互，例如走过一些障碍物，拿走场景中的一些物体，这些变化会对环境产生一些刺激，对控制对象的状态和环境的状态同时产生影响，让他们发生一定的变化；
[0049]
在这些变化发生后，奖励机制会判断整体环境以及控制对象与最终目标之间还有多少部分需要完成；
[0050]
对比控制对象执行策略之前与目标的距离，以及控制对象执行策略之后与目标的距离，就可以知道该策略对于整体控制来说起到了正向作用或者反向作用，然后根据该作用定义奖励reward；
[0051]
如果对于整体控制起正向作用，则给予正向奖励，如果起到了负面作用，则为惩罚。
[0052]
该奖励根据具体的应用场景可以随时定义，例如在机器人路径规划任务中可以定义为机器人与目标之间的距离；
[0053]
在算法应用的场景中，可以包含大量的传感器，例如红外传感器，距离传感器，温度传感器，压力传感器等一系列用来实时构建外部环境状况的传感器，用于获得环境的状态，从而在环境与控制对象交互产生变化后可以敏锐的捕捉到变化。
[0054]
该外界环境中的大量传感器形成了一个传感器集群，该传感器系统连接的，是一个由自注意力机制构建成的筛选网络，主要作用是结合控制对象上一步的执行策略，通过动作与环境交互的相关性和传感空间的自注意力来对于大量的传感器信息进行筛选，通过筛选网络和自注意力算法直接进行基于机器学习的端对端的算法筛选，获得需要的传感器信息。
[0055]
自注意力机制的网络和来自于环境的奖励，会在进行数据归一和耦合之后输入控制对象agent的策略选择网络，去选择合适的策略，该策略需要根据不同的场景具体设计策略空间，该策略空间可以是连续的或是离散的，离散行为空间包括各种离散的行为，例如开关设备，拿取物体等；连续行为空间包括一个行为的连续数值，例如控制机器人以什么速度和角度进行移动。
[0056]
学习控制方法还分为训练模式和执行模式。
[0057]
所述执行模式包括以下步骤：
[0058]
所述执行模式包括以下步骤：
[0059]
s101、在时间k时，控制对象的状态为环境的状态采取行为uk∈a；
[0060]
s102、在该行为的影响下，环境的状态：控制对象的状态：奖励值：
[0061]
s103、对于此时间k+1的环境状态传感器捕捉环境中的信息，获得:
[0062]
s104、基于此时间段的传感器信息与上一时间段的行为uk，使用自注意力机制的模型获得筛选过之后的传感器信息：的模型获得筛选过之后的传感器信息：
[0063]
s105、结合上面的信息，控制对象开始推测下一时间段应该执行的行动：
[0064]
s106、执行动作u
(k+1)
，回到s101中；
[0065]
其中，s
env
代表环境的状态；s
agent
代表控制对象的状态；s
sensor
代表传感器获得的各项参数的状态；
[0066]
a代表有限的动作集，即控制对象可以采取的行动；p代表转移概率，即采取一个动作后，转移到的概率；r为奖励函数；γ代表折扣因子；
[0067]
传感器读取环境：f
sensor
:s
env
→ssensor
；
[0068]
环境发生变化：f
env
:s
env
×a→senv
；
[0069]
奖励函数：f
reward
:s
agent
×a→
r；
[0070]
状态变化函数：f
state
:s
agent
×a→sagent
；
[0071]
还设置有能通过机器学习获得的端对端模型：自注意力机制的神经网络：σ
attention
:s
sensor
×a→satt_sensor
；控制对象选取行为策略的神经网络：σ
agent
:s
att_sensor
×sagent
→a[0072]ssensor
代表传感器感应外部环境获得的信息；
[0073]satt_sensor
代表通过自注意力机制之后留下来的传感器信息。
[0074]
所述训练模式包括以下步骤：
[0075]
s201、在时间k时，控制对象的状态为环境的状态环境的状态采取行为uk∈a；
[0076]
s202、在该行为的影响下，环境的状态：控制对象的状态：奖励值：奖励值：
[0077]
s203、对于此时间k+1的环境状态传感器捕捉环境中的信息，获得:
[0078]
s204、基于此时间段的传感器信息与上一时间段的行为uk，使用自注意力机制的模型获得筛选过之后的传感器信息：制的模型获得筛选过之后的传感器信息：
[0079]
s205、结合上面的信息，控制对象开始推测下一时间段应该执行的行动：
[0080]
s206、执行动作u
(k+1)
，回到s101中，收集每次的数据配对：
[0081][0082][0083]
s207、将数据配对作为数据集，对于神经网络σ
attention
和σ
agent
进行联合梯度下降，将下降后的参数作为新的神经网络，回到第一步，直到收敛。
[0084]
需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。
[0085]
尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

技术特征：
1.基于注意力机制的cps系统强化学习控制方法，其特征在于，包括以下步骤：s1、控制对象通过策略网络选择一个合适的策略，并且对环境进行执行；s2、环境在策略的执行下产生变化和回应，生成一个奖励；s3、预设的多个传感器对环境进行一个探测，获得了多个传感器探测信息；s4、将传感器探测信息传入自注意力网络，同时自注意力网络自动获取控制对象上一步的行为，以传感器探测信息和控制对象上一步的行为作为基准，计算需要的传感器信息；s5、将获取的传感器信息的奖励和当前的状态同时输入策略网络，更新策略网络的梯度，并且作为策略网络的输入去选择下一时间段的策略，重复进行即可完成学习控制方法。2.根据权利要求1所述的基于注意力机制的cps系统强化学习控制方法，其特征在于，学习控制方法还分为训练模式和执行模式。3.根据权利要求2所述的基于注意力机制的cps系统强化学习控制方法，其特征在于，所述执行模式包括以下步骤：s101、在时间k时，控制对象的状态为环境的状态采取行为u
k
∈a；s102、在该行为的影响下，环境的状态：控制对象的状态：奖励值：s103、对于此时间k+1的环境状态传感器捕捉环境中的信息，获得:s104、基于此时间段的传感器信息与上一时间段的行为u
k
，使用自注意力机制的模型获得筛选过之后的传感器信息：模型获得筛选过之后的传感器信息：s105、结合上面的信息，控制对象开始推测下一时间段应该执行的行动：s106、执行动作u
(k+1)
，回到s101中；其中，s
env
代表环境的状态；s
agent
代表控制对象的状态；s
sensor
代表传感器获得的各项参数的状态；a代表有限的动作集，即控制对象可以采取的行动；p代表转移概率，即采取一个动作后，转移到的概率；r为奖励函数；γ代表折扣因子；传感器读取环境：f
sensor
:s
env
→
s
sensor
；环境发生变化：f
env
:s
env
×
a
→
s
env
；奖励函数：f
reward
:s
agent
×
a
→
r；状态变化函数：f
state
:s
agent
×
a
→
s
agent
；还设置有能通过机器学习获得的端对端模型：自注意力机制的神经网络：σ
attention
:s
sensor
×
a
→
s
att_sensor
；控制对象选取行为策略的神经网络：σ
agent
:s
att_sensor
×
s
agent
→
as
sensor
代表传感器感应外部环境获得的信息；
s
att_sensor
代表通过自注意力机制之后留下来的传感器信息。4.根据权利要求2所述的基于注意力机制的cps系统强化学习控制方法，其特征在于，所述训练模式包括以下步骤：s201、在时间k时，控制对象的状态为环境的状态∈s
env
；采取行为u
k
∈a；s202、在该行为的影响下，环境的状态：控制对象的状态：奖励值：奖励值：s203、对于此时间k+1的环境状态传感器捕捉环境中的信息，获得:s204、基于此时间段的传感器信息与上一时间段的行为u
k
，使用自注意力机制的模型获得筛选过之后的传感器信息：选过之后的传感器信息：s205、结合上面的信息，控制对象开始推测下一时间段应该执行的行动：s206、执行动作u
(k+1)
，回到s101中，收集每次的数据配对：，回到s101中，收集每次的数据配对：s207、将数据配对作为数据集，对于神经网络σ
attention
和σ
agent
进行联合梯度下降，将下降后的参数作为新的神经网络，回到第一步，直到收敛。

技术总结
本发明提供了基于注意力机制的CPS系统强化学习控制方法，包括以下步骤：控制对象通过策略网络选择一个合适的策略，并且对环境进行执行；环境在策略的执行下产生变化和回应，生成一个奖励；预设的多个传感器对环境进行一个探测，获得了多个传感器探测信息；将传感器探测信息传入自注意力网络，将获取的传感器信息的奖励和当前的状态同时输入策略网络，更新策略网络的梯度，并且作为策略网络的输入去选择下一时间段的策略，重复进行即可完成学习控制方法。本发明在使用强化学习算法解决实际的控制问题的时候，该方法对于奖励的设计要求更加的宽松和便利，即部分信息可以通过传感器的隐知识学到。知识学到。

技术研发人员：卢岩涛李青孙仕琦
受保护的技术使用者：西北工业大学
技术研发日：2022.03.09
技术公布日：2022/5/25

转载请注明原文地址:https://tc.8miu.com/read-23160.html

专利

最新回复(0)