本发明涉及一种深度强化学习方法,具体涉及一种具有实时性的深度强化学习方法。
背景技术:
1、随着人工智能技术的快速发展,采用深度强化学习解决复杂决策问题正在成为有效的方法。传统的深度强化学习算法主要依赖深度神经网络进行特征提取和策略优化。然而,深度神经网络通常需要大量的训练数据和计算资源,导致训练时间较长且效率不高。训练时间和计算效率作为复杂决策问题基础而又关键的技术指标,因其在实际任务中的重要性,成为研究热点。
2、现有的深度强化学习方法中深度神经网络的输出为决策动作的q表,也就是说,在有限的空间内选择决策动作并且这些决策动作的步长是相同的。需要指出的是,现有的深度强化学习方法中深度神经网络输出的决策动作均具有相同的步长,并不能保证状态的快速收敛,这将导致决策问题不能实时被解决,对实际工程应用带来挑战。
3、一方面,从大量的数据中学习需要较长的训练时间将导致在线数据变为离线数据。另一方面,有限的空间内具有相同步长的决策动作导致状态只能按照固定步长收敛。因此,针对深度强化学习算法,减少训练时间并保证状态的快速收敛是具有实际工程意义的。
技术实现思路
1、本发明的目的是提供一种具有实时性的深度强化学习方法,以解决复杂决策问题,并保证实时选择决策动作使得状态快速收敛。本发明鉴于宽度学习系统能够快速训练并具有良好的泛化能力,宽度学习系统通过扩展网络的宽度而非深度,实现了对信息的快速处理与学习,其核心结构由输入层、增强节点和输出层组成,通过线性方程直接求解输出权重,从而提高了深度强化学习方法的实时性,减少了迭代计算的复杂性。
2、本发明的目的是通过以下技术方案实现的:
3、一种具有实时性的深度强化学习方法,包括如下步骤:
4、步骤1、估计决策动作的均值
5、agent从任意给定的初始估计状态开始,利用宽度学习系统从最新的数据中学习状态的增量,具体步骤如下:
6、步骤1.1、初始化宽度学习系统;
7、步骤1.2、agent利用在线采集到的基站信号的到达时间差和状态差更新宽度学习系统,利用宽度学习系统从最新的数据中学习状态的增量;
8、步骤2、选择决策动作
9、在以宽度学习系统的输出向量为均值,以双q网络的输出值中的较小值为协方差的高斯分布策略上选择决策动作,具体步骤如下:
10、步骤2.1、将宽度学习系统的输出向量即决策动作视为高斯分布策略的均值,双q网络的输出值中的较小值视为高斯分布策略的协方差;
11、步骤2.2、为了评估决策动作的性能,定义一步奖励函数为:
12、
13、其中,是到达时间构成的向量,表示决策动作执行后的时间,qt和qu是对称正定矩阵;
14、步骤2.3、定义双q网络总的q函数为:
15、
16、其中,γ∈(0,1)是折扣因子,和表示在第k迭代步和第k+1迭代步agentj的估计状态;
17、步骤2.4、基于q函数的值和宽度学习系统的输出向量从高斯分布策略中随机选择决策动作得到时间差奖励函数和q函数;
18、步骤2.5、将元组存储在记忆池中用于更新双q网络,其中lc是总的迭代步数;
19、步骤3、更新状态
20、步骤3.1、将状态的估计过程建模为马尔可夫决策过程,建立状态的更新过程为:
21、
22、步骤3.2、直到小于δt或者估计的状态视为agent的状态向量,否则返回步骤2,每间隔le步返回步骤1.2更新宽度学习系统,其中,δt表示期望的精度,是迭代步的上界。
23、相比于现有技术,本发明具有如下优点:
24、1、针对深度强化学习方法中深度神经网络训练过程耗时的情况,引入宽度学习系统,当收集到一组新的数据时快速从中学习,保证实时的从在线数据中学习到环境的变化,从而选择决策动作。
25、2、针对深度强化学习方法中在有限的动作空间内选择具有相同步长的情况,可能使得状态的收敛速度变慢,本发明利用宽度学习系统的输出作为选择决策动作的策略(即:高斯分布)的均值,利用双q网络的输出中的较小值作为高斯分布的协方差,无限的决策动作空间保证状态能够快速收敛。
26、3、本发明所提出的引入宽度学习系统的深度强化学习方法能够保证快速从最新收集的数据中学习。这种能力确保了本发明提出的方法具有实时性的优点,这样既能够减少神经网络的训练时间,极大程度上学习最新的数据,感知环境中的实时变化,还能实时改变决策动作,使得所提出的引入宽度学习系统的深度强化学习方法更适用于实际应用场景。
27、4、在提出的引入宽度学习系统的深度强化学习方法的基础上,考虑从高斯分布策略上选择决策动作的情况,通过将宽度学习系统的输出作为高斯分布策略的均值,将双q网络的输出中的较小值作为高斯分布策略的协方差,使得本发明具有无限的动作空间,可以选择不同步长的增量保证状态收敛。高斯分布策略大大降低了agent状态收敛的时间,提高了方法的实时性。
1.一种具有实时性的深度强化学习方法,其特征在于所述方法包括如下步骤:
2.根据权利要求1所述的具有实时性的深度强化学习方法,其特征在于所述步骤1.2的具体步骤如下: