本发明属于拆卸技术的,尤其涉及基于ppo算法的选择性拆卸优化方法、设备和介质。
背景技术:
1、制造业消耗了大量的能源和矿产资源,而每年的报废(eol)产品都堆积在垃圾填埋场。电子产品、汽车、共享自行车和工业设备等eol产品通常含有可重复使用或回收的有价值的组件和材料。从这些产品中回收价值有助于减少原材料开采和能源消耗,这有助于可持续制造。拆卸是回收报废产品不可缺少的过程,其中应确定最优/近优拆卸方案,以实现报废产品价值回收的最大化。这样的决策过程被称为拆卸规划(dsp)。由于许多eol产品已经服役很长时间,其质量状况或多或少会比其原始状态恶化。鉴于此,拆卸eol产品比组装新产品要复杂得多,而且完全dsp虽然可以拆解出所有的零件,但是并不是所有的零件都还具有价值,而且拆卸的成本过高。针对这种情况,国内外专家也深入研究了选择性拆卸,并且认为选择性拆卸相较于完全拆卸是一个更好的选择。
2、随着eol产品结构的不断复杂化,拆卸序列的搜索空间将越来越大。因此,启发式算法被广泛地用于寻找最优拆卸序列。拆卸序列是在下线产品拆卸前获得的。然而,由于产品结构的不确定性,使得预定的拆卸序列往往不切实际。至于启发式算法,对eol产品结构的微小改变可能会重新启动整个优化过程。因此,启发式算法的决策不能适应eol产品结构的变化。一些研究使用深度q网络(dqn)来加快学习速度。dqn利用经验回放和目标固定来提高算法稳定性,但是,由于样本的非静态分布和训练过程中的累积误差,有时候会导致对于某些经验的过度学习或者重复利用,使得模型训练不稳定。
技术实现思路
1、本发明的目的是提出基于ppo算法的选择性拆卸优化方法、设备和介质,选择性拆卸通过只拆卸有价值的零件,减少了拆卸成本和环境影响。基于petri网(dpn)的建模方法能够准确描述产品的拓扑结构和零件间的连接关系,使得拆卸过程的约束关系得到精确表达。
2、为了达到上述目的,在本发明提供了基于ppo算法的选择性拆卸优化方法,所述方法包括:
3、步骤1:根据需要拆卸的eol产品构建拆卸废旧产品的dpn模型;
4、步骤2:根据dpn模型构建基于强化学习的选择性拆卸模型,并使用ppo算法对选择性拆卸模型进行训练;
5、步骤3:将实时需要拆卸的eol产品输入训练后的选择性拆卸模型,得到最优的拆卸动作合集。
6、进一步地,所述s1具体包括:
7、步骤1.1:根据eol产品的拓扑结构、eol产品之间的连接关系和拆卸操作之间的约束关系构建dpn模型的五元组;
8、步骤1.2:根据dpn模型的五元组的每个变迁的输出计算eol产品拆卸状态的变换。
9、进一步地,所述dpn模型的五元组表示如下:
10、dpn=(p,f,in×m,om×n,m0)
11、其中,p表示库所的集合,根节点的库所表示未被拆卸的eol产品、中间节点代表了未被拆卸到底的eol产品中间件、叶子节点代表了已被完全拆卸出来的eol产品零部件;f表示变迁的集合,变迁对应的是强化学习中的动作,即产品的拆卸操作;n表示库所的数量;m表示变迁的数量;输入矩阵in×m定义了从库所指向变迁的有向弧,其元素i、j、k取值为0或1,当从j库所到k变迁没有有向弧时取0,反之取1;输出矩阵om×n定义了从变迁指向库所的有向弧,其元素o、k、j取值为0或1,当从k变迁到j库所没有有向弧时取0,反之取1;m0是n维向量,用来表示初始的拆卸状态,其元素取值为1或0,1代表了已经进行了拆卸操作,0代表了未进行拆卸操作。
12、进一步地,dpn模型的五元组的每个变迁至少包括一个输入和两个输出;其中,每个变迁至少从一个或多个库所获取令牌,并将令牌分发到不同的库所;当一个库所具有令牌时,只能选择激活其中一个输出变迁;当变迁从多个有向弧指向不同的库所,若变迁被激活后,所指向的所有库所都会获得令牌;
13、其中,用m维向量tfired表示各个变迁的激活状态其元素取值为1或0,分别表示对应的变迁已被或未被激活,用mnew表示新的拆卸状态,拆卸状态变换方程如下所示:
14、mnew=m0+tfired·(om×n-itn×m)
15、其中,t表示矩阵的转置操作。
16、进一步地,所述基于强化学习的选择性拆卸模型的奖励函数包括:拆卸过程的环境污染指标、拆卸过程的可回收再利用质量指标和拆卸过程的回收再利用价值指标。
17、进一步地,所述s2具体包括:
18、设dpn模型中有α个库所和β个变迁,状态s用α元向量s=(s1,s2,...,si,sα)表示,其元素si的取值为0或1,分别表示对应库所有或没有令牌的状态;
19、活动用整数a表示,a的取值范围是1≤a≤α,表示对应变迁的序号;
20、在状态s下所有可选择的活动的集合用a(s)表示,a(s)是根据dpn模型判断的;其中,用β维向量x=(x1,x2,...,xα)表示在状态s下变迁能否被激活,其元素的取值xi取值为1或0,分别表示对应的变迁能否被激活,其中,x和a(s)的计算公式如下:
21、x=s·iα×β
22、a(s)={a∈{1,2,...,β}|xi=1};
23、构建选择性拆卸模型的奖励函数reward,表示如下:
24、reward=w1·h(xi)+w2·v(xi)+w3·w(xi)
25、其中,w1、w2和w3表示各指标的权重,h(xi)表示拆卸操作xi拆除的被选择零件的环境污染指数之和,v(xi)表示拆卸操作xi拆除的被选择零件的可回收再利用质量之和,w(xi)表示指拆卸操作xi拆除的被选择零件的可回收再利用价值之和。
26、进一步地,所述拆卸过程的环境污染指数:
27、以最少的拆卸操作拆卸出被选择的零件,并使得拆卸过程的环境污染指标fx(x)最大,表示如下:
28、
29、其中,h(xi)表示拆卸操作xi拆除的被选择零件的环境污染指数之和,计算公式如下:
30、
31、其中,cs表示被选择性拆卸出的零件集合,ci表示在拆卸过程中除选择性拆卸之外拆卸出的零件的集合,har(c)表示零件c的环境污染指数级别,n表示零部件的个数;
32、所述拆卸过程的可回收再利用质量指标:
33、以最少的拆卸操作拆卸出被选择的零件,并使得拆卸过程的可回收再利用质量指标fv(x)最大,表示如下:
34、
35、其中,v(xi)表示拆卸操作xi拆除的被选择零件的可回收再利用质量之和,计算公式如下:
36、
37、其中,val(c)表示零件c的可回收再利用的质量;
38、所述拆卸过程的可回收再利用价值指标:
39、以最少的拆卸操作拆卸出被选择的零件,并使得拆卸过程的可回收再利用价值指标fw(x)最大,表示如下:
40、
41、其中,w(xi)表示拆卸操作xi拆除的被选择零件的可回收再利用价值之和,计算公式如下:
42、
43、其中,wei(c)表示零件c的可回收再利用价值。
44、进一步地,所述ppo算法为actor-critic网络架构,其中,actor网络更新表示如下:
45、
46、critic网络更新表示如下:
47、其中,rt(θ)表示新旧策略的概率比用于衡量新旧策略的变化幅度,表示优势函数用于衡量在当前状态下采取某个动作相对于平均动作的好坏程度,clip(rt(θ),1-∈,1+∈)表示用来限制rt(θ)的变化范围,当rt(θ)过大时,clip函数会将其截断为1+∈;当rt(θ)过小时,clip函数会将其截断为1-∈,表示期望的平均值,θ表示策略网络的参数,∈表示用于控制重要性采样比率剪切范围的超参数,范围在(0,1);vθ(st)表示critic网络输出的状态值,表示实际回报。
48、第二方面,本发明实施例还提供了一种电子设备,包括:
49、一个或多个处理器;
50、存储器,用于存储一个或多个程序,
51、当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述任一所述的基于ppo算法的选择性拆卸优化方法。
52、第二方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一所述的基于ppo算法的选择性拆卸优化方法。
53、本发明的有益技术效果至少在于以下几点:
54、本发明基于ppo算法的选择性拆卸规划问题,选择性拆卸通过只拆卸有价值的零件,减少了拆卸成本和环境影响。基于petri网(dpn)的建模方法能够准确描述产品的拓扑结构和零件间的连接关系,使得拆卸过程的约束关系得到精确表达。通过引入强化学习中的ppo算法,能够在面对复杂和动态变化的产品结构时,自主学习并适应最优的拆卸策略。ppo算法相比传统的dqn算法具有更高的稳定性和收敛速度,主要得益于其策略优化和裁剪机制,能够有效控制策略更新的幅度,从而避免策略更新过程中的不稳定性。
55、本发明不仅提高了拆卸过程的效率和效果,而且在面对复杂动态的拆卸任务时展现了更强的适应性和稳定性。此外,结合其他先进的强化学习算法并探索更优的建模方案,有望进一步提升选择性拆卸规划方法的性能和实用性,为可持续制造和资源回收提供有力的技术支持。
1.基于ppo算法的选择性拆卸优化方法,其特征在于,所述方法包括:
2.根据权利要求1所述的基于ppo算法的选择性拆卸优化方法,其特征在于,所述s1具体包括:
3.根据权利要求2所述的基于ppo算法的选择性拆卸优化方法,其特征在于,所述dpn模型的五元组表示如下:
4.根据权利要求3所述的基于ppo算法的选择性拆卸优化方法,其特征在于,dpn模型的五元组的每个变迁至少包括一个输入和两个输出;其中,每个变迁至少从一个或多个库所获取令牌,并将令牌分发到不同的库所;当一个库所具有令牌时,只能选择激活其中一个输出变迁;当变迁从多个有向弧指向不同的库所,若变迁被激活后,所指向的所有库所都会获得令牌;
5.根据权利要求1所述的基于ppo算法的选择性拆卸优化方法,其特征在于,所述基于强化学习的选择性拆卸模型的奖励函数包括:拆卸过程的环境污染指标、拆卸过程的回收再利用价值指标和拆卸过程的回收再利用价值指标。
6.根据权利要求1所述的基于ppo算法的选择性拆卸优化方法,其特征在于,所述s2具体包括:
7.根据权利要求5-6任一所述的基于ppo算法的选择性拆卸优化方法,其特征在于,所述拆卸过程的环境污染指数:
8.根据权利要求7所述的基于ppo算法的选择性拆卸优化方法,其特征在于,所述ppo算法为actor-critic网络架构,其中,actor网络更新表示如下:
9.一种电子设备,其特征在于,包括:
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-8中任一所述的基于ppo算法的选择性拆卸优化方法。