本发明涉及机器人,具体为一种基于双阶段训练策略的仿人机器人步态控制方法。
背景技术:
1、仿人机器人作为机器人技术领域的一个重要分支,其设计灵感来源于人类的身体结构和运动能力,使得这类机器人在执行任务时具有更高的灵活性和适应性。随着人工智能和机器学习技术的不断进步,仿人机器人的应用范围已经从简单的工业自动化扩展到了更为复杂的环境,如灾难救援、复杂地形勘探、家庭服务以及作为人类在太空探索中的助手。
2、然而尽管仿人机器人在模拟人类行走和执行任务方面取得了显著成就,它们在面对真实世界中多变和具有挑战性的地形时仍面临诸多挑战。
3、为了克服这些挑战,研究人员一直在探索新的算法和技术,以提高仿人机器人的自主性和鲁棒性。其中,强化学习作为一种有效的策略,已经在多个领域证明了其在解决复杂控制问题方面的潜力。通过强化学习,机器人可以在与环境的交互中学习最优的步态控制策略。
4、现有技术中存在如下技术问题:
5、1、适应性问题:现有的步态控制系统往往针对特定类型的地形进行了优化,当遇到未被训练覆盖的地形时,机器人的行走性能会显著下降。
6、2、关节振荡:在实际行走过程中,机器人的关节可能会出现不期望的振荡,这不仅影响机器人的运动效率,还可能对机器人的硬件造成损害。
7、3、仿真到现实转换难题(sim-to-real):在仿真环境中表现良好的控制策略往往难以直接应用到真实机器人上,因为仿真环境无法完全模拟现实世界的复杂性。
8、4、速度控制不准确:在高速行走或在变化的地形上,机器人的步态控制精度会受到影响,导致行走不平稳或摔倒
技术实现思路
1、为解决上述技术问题,本发明提出了一种基于双阶段训练策略的仿人机器人步态控制方法,有效提高了仿人机器人在多种实际应用场景中的适用性,推动仿人机器人技术的发展,为未来的研究和创新提供新的可能性。
2、为实现上述目的,本发明采取的技术方案是:
3、一种基于双阶段训练策略的仿人机器人步态控制方法,其特征在于,包括如下步骤:
4、s1,搭建强化学习稳定行走运动学习框架:
5、s11,将仿人运动控制建模为部分可观察的马尔可夫决策过程,表示为
6、完整状态、部分观测状态和动作分别表示为状态转移概率定义为po(st+1|st,at),策略π根据当前观测结果选择动作:at~π(·|ot),
7、折扣因子γ用于衡量未来的奖励,
8、奖励函数r定义为rt=r(st,at),目标是使累计折扣奖励最大化,表示为j(π)=eτ~p(·|π)[∑tγtr(st,at)];
9、s12,搭建非对称的动作-评论架构,具体如下:
10、搭建演员网络、评论家网络以及估计器网络,
11、设置用于增强过渡阶段的稳定性,并采用模仿学习来直接学习与人类相似的运动的估计器以及用于控制仿人机器人并接受其反馈的信号的pd控制器,
12、估计器与估计器网络连接,估计器网络取ot:t-h=[ot,ot-1,…ot-h]t作为输入,能够输出上下文状态向量zt和估计的线速度
13、估计器包括解码器、编码器以及仿真器,速度分量在仿真器中实际线速度的监督下进行训练,而潜在状态zt则使用变分自编码器的范式下进行训练,
14、潜在状态zt被馈送到解码器中,解码器生成下一帧的观测值,
15、估计器的总损失定义为:其中表示预测线速度的回归损失,表示重建观测值的vae损失,
16、为估计线速度,在估计的线速度和真实速度vt之间应用均方误差损失,
17、对于变分自编码器损失,通过使用:
18、
19、其中第一项表示预测的下一个观测值与实际观测值ot+1之间的重建损失,第二项量化潜在变量zt的先验分布和后验分布之间的kullback-leibler散度;
20、s13,制定奖励系统,具体如下:
21、奖励体系由几个组成部分构成:
22、r=rgait+rcommand+rroot-renergy+p·rreference
23、其中rgait调节步态模式,rcommand促进速度命令跟踪,rroot确保仿人机器人的基座保持直立姿势和正确的方向,renergy惩罚过度的能量消耗,rreference鼓励遵循参考运动,p属于{0,1}仅在训练阶段一等于1,训练阶段而取消该奖励,
24、详细的奖励函数和权重如下:
25、
26、s2,基于强化学习稳定行走运动学习框架进行双阶段训练:
27、s21,第一阶段-基础步态训练:
28、首先,将仿人机器人在预设的简单地形上进行训练,使用人为设计制作的参考运动,参考运动基于仿人机器人的结构和运动学特性进行设计制作,
29、然后,引入多个奖励函数,鼓励仿人机器人快速学习稳定行走,包括参考运动步态模式、速度命令跟踪、机器人基座的直立姿势和正确方向;
30、s22,第二阶段-适应性步态训练:
31、首先,移除对参考运动的奖励,使仿人机器人在预设的困难地形上学习适应性步态,
32、然后,增加困难地形的比例和爬坡的高度,以训练仿人机器人的适应性;
33、s23,命令式课程学习:
34、采用基于速度命令的课程学习策略,逐步提高仿人机器人的速度跟踪能力,从而在训练过程中实现从低速到高速的平滑过渡;
35、s24,状态估计方法:
36、设计估计器网络,利用历史观测数据来估计仿人机器人的本体速度和隐变量;
37、s25,强化学习:
38、首先,利用强化学习算法来优化仿人机器人的步态控制策略,
39、然后,通过与环境的交互,仿人机器人学习如何在不同困难度的地形上稳定行走;
40、s26,仿真到现实转换:
41、引入了多种随机化和延迟策略,随机化策略包括观测随机化和机器人属性随机化,延迟策略包括动作和扭矩的随机延迟。
42、作为本发明的优选技术方案:所述pd控制器的工作频率为1000hz。
43、作为本发明的优选技术方案:在步骤s22中,预设的困难地形包括平面、台阶、斜坡和楼梯。
44、作为本发明的优选技术方案:在步骤s25中,强化学习算法为ppo算法。
45、与现有技术相比,本发明的有益效果为:
46、本发明实现了仿人机器人在模仿人类行走和跑步方面的显著技术效果,具体如下:
47、1、增强的适应性:
48、机器人能够适应多变和复杂的地形条件,包括但不限于平面、台阶、斜坡和楼梯。
49、2、提高的速度控制精度:
50、机器人在执行速度命令跟踪时展现出更高的精度,减少了因地形变化或速度增加而导致的速度控制误差。
51、3、减少关节振荡:
52、通过改进的步态控制策略,机器人关节的振荡得到有效控制,从而提高了行走的稳定性和机器人的耐用性。
53、4、成功的仿真到现实转换:
54、机器人能够在现实世界中复现仿真环境中学到的步态,显著提高了从仿真到现实部署的成功率。
55、5、提升的能量效率:
56、优化的步态和运动控制减少了不必要的能量消耗,提高了机器人在执行任务时的能量效率。
57、6、增强的鲁棒性:
58、机器人在面对外部扰动和非理想条件时,能够保持稳定行走,展现出更强的鲁棒性。
59、7、提高的任务成功率:
60、在执行如爬楼梯、穿越斜坡等具体任务时,机器人展现出高成功率,证明了控制策略的有效性。
61、8、改善的行走稳定性:
62、机器人在不同地形上行走时,能够保持更稳定的姿态,减少了摔倒和失衡的风险。
63、9、扩展的应用范围:
64、本发明的技术方案提高了机器人在多种实际应用场景中的适用性,如搜索救援、工业自动化、家庭服务等。
65、本发明的技术方案能够有效推动仿人机器人技术的发展,为未来的研究和创新提供新的可能性,通过这些技术效果,本发明不仅推动了仿人机器人技术的发展,还为机器人在更广泛领域的应用提供了新的可能性,特别是在需要机器人与人类密切互动的场景中。
1.一种基于双阶段训练策略的仿人机器人步态控制方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的一种基于双阶段训练策略的仿人机器人步态控制方法,其特征在于,在步骤s12中,所述pd控制器的工作频率为1000hz。
3.根据权利要求1所述的一种基于双阶段训练策略的仿人机器人步态控制方法,其特征在于,在步骤s22中,预设的困难地形包括平面、台阶、斜坡和楼梯。
4.根据权利要求1所述的一种基于双阶段训练策略的仿人机器人步态控制方法,其特征在于,在步骤s25中,强化学习算法为ppo算法。