2 个月前

交互式手-物体姿态估计中的和谐特征学习

{Shaoli Huang, Zengsheng Kuang, Huan Yao, Changxing Ding, Zhifeng Lin}

摘要

从单张图像中联合估计手部与物体的位姿极具挑战性，因为在手与物体交互时常常发生严重遮挡。现有方法通常首先通过单一主干网络提取粗粒度的手部与物体特征，随后借助交互模块相互参考以进一步增强特征。然而，这些方法往往忽略了手部与物体在特征学习过程中存在竞争关系——由于主干网络将二者均视为前景，且通常彼此相互遮挡，导致特征学习过程中的干扰。为此，本文提出一种新颖的和谐特征学习网络（Harmonious Feature Learning Network, HFL-Net）。HFL-Net采用一种新框架，融合单流与双流主干网络的优势：共享一个通用ResNet-50模型的低层与高层卷积层参数，而中间层则保持不共享。该策略使得中间层能够将手部与物体分别作为独立目标进行提取，从而避免二者在特征学习过程中的竞争。同时，共享的高层特征层促使手部与物体的特征保持协调一致，进而促进彼此的特征增强。特别地，本文提出通过将手部特征与其对应位置来自物体分支的特征进行拼接，以增强手部特征表达；随后引入自注意力机制，对拼接后的特征进行深度融合。实验结果表明，所提方法在主流的HO3D与Dex-YCB数据集上 consistently 超越现有最先进方法。尤为突出的是，本模型在手部位姿估计任务上的表现甚至超过了仅针对单手位姿估计任务设计的现有方法。代码已开源，地址为：https://github.com/lzfff12/HFL-Net。