本发明涉及制造业分布式生产调度,具体涉及一种强化学习驱动的分布式柔性作业车间调度优化系统。
背景技术:
1、经济全球化给传统制造业带来了巨大的冲击,生产企业必须打破传统的制造模式,才能实现经济的可持续发展,在日益激烈的全球市场中占有一席之地。由原来的单厂制造转变为多厂协同生产。分布式生产环境正变得越来越重要,因为它们能为企业提供更高质量、更短的交货期和更低成本的产品。生产调度是制造系统的组成部分,直接影响企业的效率和竞争力。尤其是在企业制造过程中有着重要应用的分布式柔性作业调度问题,引起了众多研究者的关注。以提高能源效率和可持续性为重点的分布式柔性作业车间调度问题(distributed flexible job shop scheduling problem,dfjsp),已成为现代制造系统中的一个重要研究领域。这个问题概括了在多个分布式制造现场优化生产计划的挑战,同时考虑到将作业灵活分配到机器上,以实现最小化生产周期、能耗和其他目标。全球推动绿色制造实践,旨在降低碳足迹和运营成本,同时保持较高的生产效率这推动了对高能效解的迫切需求。尽管取得了重大进展,但由于制造环境的动态性、任务的异质性以及存在相互冲突的多目标约束,dfjsp仍然是一个复杂的问题。
2、在dfjsp中,要解决三个任务,即把工件分配到工厂、确认工序和把工序分配到机器。由于柔性作业车间调度问题已经是一个np难问题,且dfjsp是fjsp的一种特殊情况,具有多个工厂,因此也是一个np难问题。目前有研究者们开发了许多优化方法用于求解dfjsp,包括精确算法、启发式方法和元启发式方法,如遗传算法(ga)、粒子群优化(pso)和人工蜂群(abc)。在求解dfjsp时,虽然元启发式方法有望在合理的时间内找到接近最优的解,但元启发式方法通常需要对参数进行大量调整,而且可能无法在不同的问题实例中持续获得最优解。此外,这些方法通常侧重于单目标优化,可能无法有效求解多个优化目标下的dfjsp,在这种情况下,必须平衡在总完工时间、能耗和其他目标之间的权重。
3、选择超启发式方法(shh)是解决复杂优化问题的一种灵活而强大的方法,它可以根据环境状态智能地选择和应用一组低级启发式方法,并根据不同问题的特点进动作态调整,从而克服传统元启发式方法的局限性。最近的研究已开始探索将选择超启发式应用于各种调度和优化问题,并证明了其在探索复杂优化问题解空间的高效性。在选择超启发式算法中,高层策略的效率对算法性能有着重大影响,如何设计高效的高层策略成为当前超启发式算法研究中的一个热点。q-learning算法作为强化学习算法的一个分支,在解决调度问题方面取得了一系列研究成果。强化学习服务于超启发式算法,从整个搜索过程中产生的反馈信息中提取知识,合理地将知识整合到种群进化不同阶段的搜索过程中,可以指导超启发式算法选择最合适的低级启发式,对解空间进行充分的探索和开发,从而有效提高解的质量。q-learning引导的shh运用“反馈-训练-选择”的智能迭代机制,训练一个基于问题知识的自学习智能体,智能体智能地地选择低级启发式获得高质量的解,然后利用反馈信息学习并更新智能体,从而继续提高智能体选择的效率。移动接收准则以概率接受新解(包括较差的解)保证了解的多样性。shh中的高层策略和低级启发式以及移动接收准则可以根据实际问题的不同需求用不同方法实现和替换,是一个求解效率高,通用性强的求解框架。因此,使用shh求解分布式柔性作业车间调度问题具有一定的研究基础和优势。
技术实现思路
1、本发明的目的在于解决上述背景技术中提出的问题,提出了一种强化学习驱动的分布式柔性作业车间调度优化系统,其以最小化最大完工时间和最小化总能耗为优化目标,解决能效约束下的分布式柔性作业车间调度问题。
2、为了实现上述目的,本发明采用了如下技术方案:
3、一种强化学习驱动的分布式柔性作业车间调度优化系统,其特征在于,该系统包括调度序列初始化模块、基于q-learning的超启发式框架模块、基于问题特征的节能策略模块和基于启发式的移动接受准则模块;
4、在调度序列初始化模块中,根据工厂序列fa、机器序列ma和操作序列os构成的三维向量fa-ma-os的编码方案,采用3种启发式h1、h2、h3和一种随机扰动r1的多维启发式初始化方法构造初始种群;
5、在基于q-learning的超启发式框架模块中,根据研究问题的特点提取问题知识,设计了邻域搜索算子,以提高局部搜索效率,共有八种不同的邻域搜索算子,每个邻域结构搜索不同的解空间,不同的邻域结构可以找到更好的解;且结合q-learning算法设计了一种自学习的选择策略,q-learning算法在种群更新过程中的每一步选择最合适的低级启发式,其中,八种不同的邻域搜索算子被视为动作集;
6、在基于问题特征的节能策略模块中,对当前新解执行节能操作,降低解序列的能耗目标值,加速算法收敛;
7、在基于启发式的移动接受准则模块中,通过比较新解与当前解的适应度值,以概率p接受新解,概率p由新解和当前解的适应度值差值决定,即新解越好,接收概率越大,新解越差,接收概率越小。
8、优选的,在调度序列初始化模块中,首先,工厂序列fa向量由h1构造,根据工厂负载(工厂内平均加工时间)最短为工件选择负载最低的工厂;其次,由h2构造机器序列ma向量,同h1,h2为工件选择最低负载的机器并加工,如果多台机器负载相同,则随机选择机器进行加工;接着,h3根据工件的剩余加工时间构造操作序列os向量,剩余处理时间最长的工件优先被加工;最后r1在构造好的fa-ma-os序列加入随机扰动,以增加种群的多样性,使系统在求解分布式柔性作业车间调度问题时能够获得更高精度的结果。
9、优选的,在基于q-learning的超启发式框架模块中,为了提高超启发式的性能,采用q-learning作为高层策略,通过每次迭代的反馈信息训练智能体,智能体根据环境(种群状态)选择最适合当前环境的动作(低级启发式)以对解空间进行探索和开发;训练过程采用改进的∈-贪婪策略,其动作选择概率如下:
10、
11、q(st,at)←q(st,at)+α(rt+1+γmaxq(st+1,at+1)-q(st,at)) (3)
12、其中,∈是指在maxfe处从标准正态分布中抽取的样本值,maxfe最大函数评价次数即停止标准,set(a)是q-learning的动作集,a*表示状态st时q值最大的动作;从公式(1)中可以看出随着评估次数的增加,∈的值会逐渐减小到0;在训练开始时,智能体探索新动作的概率几乎为40%。随着时间的增加,rand<∈的概率逐渐降低,根据公式(2)智能体倾向于选择q值最大的动作。换句话说,在动作选择的早期阶段(即选择llh),智能体保持一定程度的探索,但随着训练的进行,它更倾向于使用已学知识来指导动作选择;智能体基于环境的学习经验存储在一个q表中,q表中的每一行和每一列分别代表状态和动作,q表中每个q值的由q函数计算,如公式(3)所示;
13、其中,q(st,at)表示在状态st下采取动作at时的q值,参数α控制每轮训练的学习权重,范围为[0,1],称为学习率;如公式(1)所示,α的值从1开始逐渐减小,当α的值从1减小到0时,表示智能体对当前动作所获得的奖励的关注度增加,折扣因子用γ表示,取值范围为[0-1],max q(st+1,at+1)是指在st+1状态下采取at+1动作时q表的最大q值;
14、动作集由八个邻域搜索算子构成,状态则根据种群目标函数值的归一化后进行划分,将状态集分为10个不相交的部分,例如,当st∈[0,0.1]时,st=s1;当st∈[0.9,1.0]时,st=s10。
15、具体的,通过对种群的个体进行插入、交换等操作,生成邻域解,在当前邻域解中搜索更好的解,即找到使目标函数值最小的邻域解,八种邻域搜索算子介绍如下:
16、n1(llh1):在关键块内随机选择两个操作并交换位置;
17、n2(llh2):在关键块内随机选择两个操作并把后者操作插入到前者操作之前;
18、n3(llh3):在关键块内随机选择一个关键操作并插入到另一台机器当中;
19、n4(llh4):交换关键块内的头尾操作;
20、n5(llh5):在一个关键块内选择一个操作插入到头结点之前,另一个操作插入到尾操作之后;
21、n6-variant(llh6):在n6操作的基础上,将关键块内的尾操作插入到头操作之前;
22、n7(llh7):在n6操作前,将关键块内的头尾操作插入到关键块内其他任意位置;
23、n8(llh8):将n7操作后,将关键块内的头尾操作插入到关键块外其他任意位置。
24、优选的,在基于问题特征的节能策略模块中,当操作oi,j到达机器时,扫描同一台机器上的前一个空闲时间块,确定是否存在加工时间小于空闲时间块的操作,将操作oi,j移动到该空闲时间块,并将其他操作oi,j向前移动;然后,执行上述步骤将调度方案从半主动调度转换为主动调度后,反向遍历操作所在机器的空闲时间块,并将处理时间小于空闲时间块的操作向右移动;最后重复上述步骤,直到该调度方案转换为全主动调度,即没有可操作的空闲时间。
25、优选的,在在基于启发式的移动接受准则模块中,采用模拟退火的启发式方法作为移动接受准则,以概率pma接受新群体中质量相对较差的解,从而摆脱陷入局部最优的麻烦;如果新的解π比当前解有所改进,则取代当前解;否则,新解被接受的概率为pma,该概率由公式(6)计算得出:
26、
27、在公式(6)中,用新解与当前解的平均适应度值的差来表示新解的改进程度。由公式(6)可以得出结论:新解的改进程度越低(即新解的质量越差),接收概率就越低。
28、本发明的有益效果在于:
29、1、q-learning算法用于选择超启发式的高层策略,动态地选择低级启发式。基于搜索状态和每个低级启发式的历史反馈信息,选择合适的邻域搜索算子,以进一步平衡算法对解空间的探索和开发能力。
30、2、本发明针对问题特征设计了多个邻域搜索算子,并作为选择超启发式中的低级启发式,以提高局部搜索的效率。
31、3、基于问题知识的节能操作有效地降低能耗,提高解得质量
32、4、基于启发式的移动接受准则概率接受较差解,避免算法陷入局部最优,提高了算法的全局搜索效率。
33、5、本发明逻辑简单、易于实现和易于扩展,可以将优化器扩展到满足当前智能制造生产领域中的大多数调度问题中。
1.一种强化学习驱动的分布式柔性作业车间调度优化系统,其特征在于,该系统包括调度序列初始化模块、基于q-learning的超启发式框架模块、基于问题特征的节能策略模块和基于启发式的移动接受准则模块;
2.根据权利要求1所述的一种强化学习驱动的分布式柔性作业车间调度优化系统,其特征在于:在调度序列初始化模块中,首先,工厂序列fa向量由h1构造,根据工厂负载最短为工件选择负载最低的工厂;其次,由h2构造机器序列ma向量,同h1,h2为工件选择最低负载的机器并加工,如果多台机器负载相同,则随机选择机器进行加工;接着,h3根据工件的剩余加工时间构造操作序列os向量,剩余处理时间最长的工件优先被加工;最后r1在构造好的fa-ma-os序列加入随机扰动,以增加种群的多样性,使系统在求解分布式柔性作业车间调度问题时能够获得更高精度的结果。
3.根据权利要求2所述的一种强化学习驱动的分布式柔性作业车间调度优化系统,其特征在于:在基于q-learning的超启发式框架模块中,为了提高超启发式的性能,采用q-learning作为高层策略,通过每次迭代的反馈信息训练智能体,智能体根据环境(种群状态)选择最适合当前环境的动作(低级启发式)以对解空间进行探索和开发;训练过程采用改进的∈-贪婪策略,其动作选择概率如下:
4.根据权利要求3所述的一种强化学习驱动的分布式柔性作业车间调度优化系统,其特征在于:当操作oi,j到达机器时,扫描同一台机器上的前一个空闲时间块,确定是否存在加工时间小于空闲时间块的操作(其中,oi,j为第i个工件的第j个操作)。将操作oi,j移动到该空闲时间块,并将其他操作oi,j向前移动;然后,执行上述步骤将调度方案从半主动调度转换为主动调度后,反向遍历操作所在机器的空闲时间块,并将处理时间小于空闲时间块的操作向右移动;
5.根据权利要求4所述的一种强化学习驱动的分布式柔性作业车间调度优化系统,其特征在于:通过对种群的个体进行插入、交换等操作,生成邻域解,在当前邻域解中搜索更好的解,即找到使目标函数值最小的邻域解,八种邻域搜索算子介绍如下:
6.根据权利要求5所述的一种强化学习驱动的分布式柔性作业车间调度优化系统,其特征在于:在基于启发式的移动接受准则模块中,采用模拟退火的启发式方法作为移动接受准则,以概率pma接受新群体中质量相对较差的解,从而摆脱陷入局部最优的麻烦;如果新的解π比当前解有所改进,则取代当前解;否则,新解被接受的概率为pma,该概率由公式(6)计算得出: