本发明属于面向家庭服务领域的机器人动作规划方法,具体涉及一种基于视觉与力感知的机器人擦拭动作策略学习方法。
背景技术:
1、机械臂作为一种具有多个自由度且可编程的机器设备,在工业自动化领域已被广泛应用,执行诸如装配、焊接和搬运等多样化任务。随着技术的发展,机械臂的应用已从传统的工业生产扩展到仓储物流、医疗护理以及家庭服务等领域。特别是在家居环境中,机械臂的应用提出了新的挑战和要求,如需要在更加复杂和动态的环境中操作,同时保证高效率和安全性。
2、应用在家庭服务中的机械臂与应用在工业中的不同,机器人需要在非结构环境下执行任务。如果使用传统控制方式,这对机器人来说意味着状态空间和动作空间维度的增加,控制参数数量呈指数级增长,运动控制难度也在逐渐增加。
3、本发明主要面向家庭服务领域,研究基于多模态感知信息研究机器人动作自适应规划方法。目前,将机械臂应用到家庭服务行业,存在的问题:(1)对环境变化的适应性有限。家居环境属于非结构化环境或存在较大干扰的环境。根据每个家庭的环境不同,使用传统方法对机械臂进行动作规划需要对每家进行针对性调整,且调节效果会出现不理想的情况。(2)设计复杂,若要机械臂通过传统算法实现丝滑的动作,往往需要设计复杂的结构,并调整几十个参数,且出现问题不好进行针对性调整。
4、强化学习相较于上述方法,通过训练过程中积累数据,利用自身数据进行训练,能通过与环境的交互和反馈,自动调整策略以适应动态和复杂的环境。深度强化学习能通过神经网络处理高维数据,使在复杂环境中处理复杂任务变得可行。当移植到新环境中完成同样任务时,强化学习通过持续学习和更新策略,不断提高性能,适应新任务和环境。
技术实现思路
1、针对以上问题,本发明旨在提供一种基于视觉与力感知的机器人擦拭动作策略学习方法,引入了深度强化学习领域中的一种先进算法——ppo(proximal policyoptimization,近端策略优化)。ppo作为一种策略梯度方法,通过在策略更新过程中采用信任区域的概念,有效地平衡了探索与利用之间的关系,从而在保持学习稳定性的基础上,促进了学习效率的大幅提升。利用ppo算法所构建的动作规划模型,本方法能够更精细地优化机器人在复杂环境中的擦拭动作策略,确保机械臂在执行任务时既不会因过于激进的策略更新而陷入性能退化,又能快速适应环境变化,持续优化其行为。
2、本发明采用的技术方案为一种基于视觉与力感知的机器人擦拭动作策略学习方法,利用ppo算法构建机器人擦拭动作规划模型,选择ppo算法进行改进的原因是因为相比于其他强化学习算法,ppo算法具有较好的稳定性。ppo通过使用计算一定截断比例的方法限制策略更新的幅度,确保新策略不会偏离旧策略太远,从而在探索和利用之间找到了良好的平衡。这种设计有助于维持学习过程的稳定性和避免大幅度性能下降。ppo算法的裁切策略如下:
3、
4、其中,t代表擦拭过程中的时间步;θ是ppo算法策略的参数,决定了擦拭过程中根据训练得到的策略下一步进行的行为;rt(θ)是新旧策略之比;是优势函数估计值,它衡量采取动作a相比平均情况的相对优势;∈是裁剪系数,用于限制策略变化幅度。clip操作通过比较rt(θ)与限制范围的大小,将策略变化控制在一定范围之内,确保训练时既能有效探索策略空间,又能保持训练的稳定性和效率。
5、在本发明中着重设计的奖励函数部分会直接应用到优势函数a(s,a)的计算中。优势函数的计算为:
6、a(s,a)=q(s,a)-v(s)
7、其中,q(s,a)表示在机械臂当前状态s下采取擦拭动作a后,预期累积奖励的总和。本次设计的奖励函数主要会应用在q(s,a)的计算中。v(s)则是状态s的价值,v(s)的值由价值网络对状态进行判断后生成。
8、具体措施是,首先构建包含丰富细节的仿真环境,以精确模拟机械臂作业实况,包括但不限于集成机械臂硬件状态监控、视觉数据处理以及力传感信息的即时反馈。随后,对收集到的多模态数据进行预处理,如图像的灰度转换、尺寸调整及裁剪,以及力传感信号的归一化,以便于模型高效处理。在此基础上,配置并优化ppo模型,它不仅涉及对模型架构的精心设计——采用卷积神经网络处理图像输入,多层感知器处理力传感等矢量数据,还着重于通过调整学习速率、网络层数等超参数,以及设计一个既能反映任务完成质量、执行效率,又兼顾安全性的精细化奖励函数,来引导ppo算法高效学习擦拭策略。
9、与现有技术相比较,本发明方法经过密集的仿真环境下的训练与奖励机制的不断调优,机械臂将逐步精炼其擦拭技能,不仅提升任务执行效率,还能在保证安全的前提下,灵活应对不同清洁需求。最后,将训练成熟的模型部署至实体机械臂上进行实地测试与微调,尽管会面临模拟与现实世界之间存在的差距,但凭借ppo算法的鲁棒性和先前的精细调校,机械臂能迅速适应真实环境的变化,显著增强其在多样化的家居应用场景中的擦拭作业能力。
1.一种基于视觉与力感知的机器人擦拭动作策略学习方法,其特征在于,利用ppo算法构建机器人擦拭动作规划模型,ppo算法的裁切策略如下:
2.根据权利要求1所述的一种基于视觉与力感知的机器人擦拭动作策略学习方法,其特征在于,机器人面向家居场景擦拭任务,通过以下步骤实现任务规划与运动生成:
3.根据权利要求2所述的一种基于视觉与力感知的机器人擦拭动作策略学习方法,其特征在于,所述计实验环境中,将三种情况加入到step函数中终止判定条件内,组成四个终止条件:1)发布的白板污渍图片中所有像素点为背景色,即已经擦完;2)板擦根部发生碰撞;3)机械臂发生碰撞;4)机械臂末端超出规定运动范围;采用多线程的方式接受机械臂碰撞以及板擦根部碰撞信息;两个线程在主线程外同时进行;如果检测到碰撞,则立刻执行机械臂位置重置。
