17 天前

A2J-Transformer:用于从单张RGB图像进行3D交互手部姿态估计的锚点到关节Transformer网络

Changlong Jiang, Yang Xiao, Cunlin Wu, Mingyang Zhang, Jinghong Zheng, Zhiguo Cao, Joey Tianyi Zhou
A2J-Transformer:用于从单张RGB图像进行3D交互手部姿态估计的锚点到关节Transformer网络
摘要

从单张RGB图像中实现交互手部的3D姿态估计是一项极具挑战性的任务,主要由于手部之间存在严重的自遮挡与互遮挡、双手外观相似性高、以及从2D到3D关节位置映射的病态性等问题。为应对上述挑战,本文提出将当前最先进的基于深度信息的单手3D姿态估计方法A2J,拓展至交互手部场景下的RGB图像域。我们的核心思想是赋予A2J强大的局部-全局感知能力,以协同捕捉交互手部的局部精细细节与关节间的全局结构线索。为此,我们在Transformer的非局部编码-解码框架下对A2J进行演化,构建出A2J-Transformer。该方法相较于原始A2J具有三大优势:第一,通过在局部锚点之间建立自注意力机制,使锚点具备全局空间上下文感知能力,从而更有效地捕捉关节间的运动学线索,增强对遮挡的鲁棒性;第二,每个锚点被建模为可学习的查询(query),并具备自适应特征学习能力,从而摆脱传统方法中各锚点共享相同局部表示的限制,显著提升对复杂姿态模式的拟合能力;第三,与A2J中锚点位于2D图像空间不同,A2J-Transformer将锚点置于3D空间中,充分挖掘3D姿态预测的潜力。在具有挑战性的InterHand 2.6M数据集上的实验结果表明,A2J-Transformer在无需模型依赖(model-free)的设定下达到了当前最优性能,在双手场景下实现了3.38毫米的MPJPE指标提升。此外,该方法还展现出优异的跨模态泛化能力,可直接应用于深度图像域并保持高性能。