Command Palette
Search for a command to run...
DragMesh-2:面向铰接物体的物理合理灵巧手-物交互
DragMesh-2:面向铰接物体的物理合理灵巧手-物交互
Tianshan Zhang Yijia Duan Yanjun Li Zeyu Zhang Hao Tang
摘要
灵巧操作铰接物体对于家庭服务、辅助操作及类人机器人操作至关重要,多指机械手能够提供超越平行夹爪抓握的顺应性接触模式。然而,铰接物体操作与静态物体操作存在差异:目标部件无法被直接驱动,其运动必须通过手部与手柄之间持续的物理接触来产生。这使得从以物体为中心的铰接生成向手驱动的灵巧手物交互的过渡并非易事,因为几何轨迹回放或开环执行无法对移动铰接部件所需的接触动力学进行建模。此外,仅在固定动力学条件下为完成特定任务而训练的策略容易过拟合标称接触负载,尤其是在缺乏触觉或力反馈的情况下,当接触负载发生变化时,其性能可能会出现下降。为应对上述挑战,本文提出DragMesh-2,这是一种面向铰接物体灵巧交互的接触驱动框架。该框架将铰接交互从以物体为中心的生成扩展至手驱动的灵巧手物交互,在此过程中,铰接运动必须通过物理接触自然产生。此外,我们进一步提出了PICA,这是一种基于物理信息的接触感知训练机制。该机制能够在无需触觉或力反馈的情况下,将物理信号注入策略学习过程中,从而提升接触负载变化条件下的系统鲁棒性与任务成功率。最后,我们在多种阻尼条件及不同类别的铰接物体上进行了系统评估,以探究接触负载变化下的鲁棒性,并提供了一个纯几何灵巧交互资源,以支持未来的移动操作与类人机器人手物交互研究。在七个GAPartNet物体上的实验表明,相较于对比方法,DragMesh-2在接触负载变化条件下展现出更强的鲁棒性,同时在多种阻尼条件下均能维持较高的任务成功率。
一句话总结
DragMesh-2 提出了一种面向可动物体灵巧手物交互的接触驱动框架。该框架以持续的物理接触替代开环轨迹回放,利用 PICA 训练机制在无需触觉或力反馈的情况下注入物理信号,并在不同阻尼条件下对七个 GAPartNet 物体展现了稳健的操控能力。
核心贡献
- DragMesh-2 是一种接触驱动框架,将可动物体的操控从以物体为中心的轨迹生成转变为由手驱动的灵巧交互,其运动通过持续的物理接触自然产生。该方法显式建模了驱动可动部件所需的接触动力学,无需依赖几何回放或开环执行。
- PICA 是一种物理信息训练机制,利用短视距交互历史在无需触觉或力反馈的情况下向策略学习注入物理信号。通过将任务奖励与独立的作用域约束及接触保持正则化项相结合,该方法在接触负载波动时稳定了多指协调性。
- 在七个 GAPartNet 物体及多种阻尼条件下的系统评估表明,该框架在保持高任务成功率的同时,对接触负载变化的鲁棒性优于现有方法。纯几何灵巧交互数据集的开源将进一步支持未来的移动操作与人形机器人手物交互研究。
引言
灵巧操控可动物体对于家庭助理和人形系统等先进机器人应用至关重要,因为多指手能够实现传统夹爪无法达成的顺应性接触模式。然而,先前的方法面临困难,原因在于可动部件无法直接控制,必须通过持续的物理交互来驱动。现有方法通常依赖开环轨迹回放或在固定动力学下训练的强化学习,这导致策略对标称接触负载过拟合,并在交互条件变化时失效。为克服这些局限,作者提出 DragMesh-2,这是一种仅通过实时手柄交互生成可动运动的接触驱动框架。此外,作者提出了 PICA,一种物理信息训练机制,将接触感知信号与动力学随机化注入策略学习,从而在无需触觉或力传感器的情况下实现变负载下的稳健操控。
数据集
-
数据集构成与来源: 作者采用纯启发式方法,直接从 GAPartNet 几何库生成参考接触轨迹数据集。该数据集包含 277 条轨迹,分布于七个 GAPartNet 类别中,保留了原始类别比例,并大量包含 StorageFurniture 类物体。
-
子集详情与结构: 每条轨迹遵循四阶段交互序列:接近、抓取、拖拽与释放。生成过程筛选具有有效部件、手柄及关节自由度标注的物体,随后将这些几何线索与 SMPL-X 手部模型结合,确保所有手腕与手指运动均符合目标关节约束。
-
数据处理与存储: 数据集通过几何引导的合成流程生成,所有输出均保存为包含逐帧手腕位姿与手指配置的 JSON 文件。该存储格式将数据与特定策略或物理后端解耦,使轨迹可在任意兼容的 GAPartNet 模型中完全重新生成。
-
模型中的应用: 作者在其 DragMesh-2 框架中以三种方式使用该统一数据集。它用于初始化专家抓取状态并设定接触驱动强化学习任务的目标运动尺度,作为轨迹跟踪评估的固定非学习基线,并以纯几何交互资源的形式公开,供未来的移动操作研究使用。
实验
该评估在标称、轻度及重度分布外阻尼条件下,将学习到的接触驱动策略与轨迹回放及几何基元在多种可动物体上进行基准测试。消融与诊断研究验证了稳健操控需要显式物理正则化与时间接触响应建模的协同结合,因为标称成功率指标常常掩盖了底层的动作饱和与稳定性崩溃。此外,实验表明仅靠延长训练时间或扩大阻尼分布无法克服重度负载下的失效问题,确立了可靠的检查点选择必须优先保证分布外鲁棒性,且持续进展将依赖于通过直接力反馈丰富接触接口。
训练时长研究表明,延长基础策略优化虽能提升标称性能,但会严重损害重度阻尼条件下的鲁棒性。随着训练轮次增加,策略趋向动作饱和,在面临高接触负载时导致任务成功率与进展指标急剧下降。应用物理结构微调模块可有效缓解此崩溃现象,在两种执行模式下均保持高成功率与稳定的动作分布。基础训练时间过长会导致重度阻尼下出现严重性能崩溃,此时动作饱和指标趋近上限。结合物理微调模块能够维持高成功率,并防止长周期训练基础策略中常见的动作饱和问题。确定性评估与随机评估均表明,微调变体在鲁棒性与进展指标上均优于延长训练的基础策略。
作者考察了训练时长对不同接触负载条件下策略鲁棒性的影响。研究发现,虽然更长训练时间提升了标称阻尼下的成功率,但在增加阻尼时会导致性能急剧下降。该性能下降与动作饱和度的上升相关,表明延长训练会将策略推向缺乏鲁棒性的饱和状态。延长训练虽能提升标称性能,但会降低重度阻尼下的鲁棒性。随着训练持续,动作饱和度持续攀升。标称成功率指标在评估策略处理高接触负载的能力时可能具有误导性。
作者探讨了延长微调时长对不同阻尼条件下策略鲁棒性的影响。结果显示,尽管标称成功率保持高位且训练奖励上升,但在更高阻尼水平下性能显著退化。这表明持续训练将策略推向损害分布外稳定性的饱和区间。尽管维持了高标称成功率,延长微调仍会导致高阻尼条件下的鲁棒性崩溃。动作饱和度指标随训练轮次稳步上升,表明策略正逐渐偏向饱和且低鲁棒性状态。仅依据训练奖励选择检查点不足以保障分布外鲁棒性,因为奖励最优的检查点实际性能已出现退化。
作者在不同阻尼水平下评估了接触驱动的可动物体操控,发现所提方法相较于轨迹回放、几何基元及标准学习基线,始终实现最高的成功率。结果表明,将物理结构信号与时序编码器结合可在强接触负载下产生更优的鲁棒性,而仅依赖标称性能或延长训练往往导致动作饱和与性能崩溃。所提方法在所有阻尼乘数与执行模式下均保持最高的平均成功率,优于开环与学习基线。仅靠时序编码器不足以实现稳健的接触控制,必须结合物理信号与时序建模以防止重度阻尼下的饱和。标称成功率指标可能产生误导,因为若无显式接触感知正则化,延长训练与扩大阻尼范围通常会削弱分布外鲁棒性。
作者评估了扩大训练阻尼分布是否能在微调期间提升分布外鲁棒性。结果表明,拓宽阻尼范围无法在重度阻尼条件下产生稳定收益。相反,该调整导致标称与轻度阻尼设置下的性能出现明显退化。扩大训练阻尼范围无法在重度阻尼条件下产生稳定收益。修改后的训练分布导致标称与轻度阻尼设置下的性能出现明显退化。仅调整训练阻尼区间在当前控制框架内提供的收益十分有限。
实验评估了延长训练时长、持续微调及扩大阻尼分布对策略稳定性的影响,揭示出尽管标称成功率提升,但更长的优化时间始终会削弱分布外鲁棒性。该性能崩溃由动作饱和驱动,使得基于奖励的检查点选择与更宽的训练范围在处理高接触负载时失效。相比之下,将物理结构信号与时序编码器结合成功防止了饱和,并在所有执行模式下维持高成功率。最终,本研究证实显式接触感知正则化对稳健操控至关重要,因为仅依赖延长训练或标称指标会损害重度阻尼下的稳定性。