8日前

インタラクティブな手-物体ポーズ推定のための調和的な特徴学習

{Shaoli Huang, Zengsheng Kuang, Huan Yao, Changxing Ding, Zhifeng Lin}
インタラクティブな手-物体ポーズ推定のための調和的な特徴学習
要約

単一画像からの手と物体のポーズ推定は、手と物体が相互に接触する際に深刻な遮蔽(occlusion)が生じるため、極めて困難な課題である。従来の手法は、通常、単一のバックボーンから粗い手および物体の特徴量を抽出した後、相互作用モジュールを用いてお互いの特徴量を強化するアプローチを採用している。しかし、これらの手法は、バックボーンが手と物体の両者を前景として扱うため、両者が特徴学習において競合関係にあり、特に相互に遮蔽される状況を無視している点に問題がある。本論文では、新たな調和的特徴学習ネットワーク(Harmonious Feature Learning Network, HFL-Net)を提案する。HFL-Netは、単一ストリームと二重ストリームバックボーンの利点を統合する新しいフレームワークを採用している。具体的には、共通のResNet-50モデルの低レベルおよび高レベルの畳み込み層のパラメータを手と物体の両者で共有しつつ、中間レベルの層は共有しない。この戦略により、中間レベルの層が手と物体をそれぞれ独立したターゲットとして抽出可能となり、特徴学習における競合を回避する。また、共有された高レベル層は、手と物体の特徴量が調和的になるように強制することで、相互の特徴強化を促進する。特に、物体ストリームの同一位置における特徴量と手の特徴量を連結することで、手の特徴量を強化する手法を提案し、その後に自己注意(self-attention)層を用いて深く特徴量を融合する。実験結果から、提案手法は代表的なHO3DおよびDex-YCBデータベースにおいて、既存の最先端手法を一貫して上回ることが確認された。特に、手のポーズ推定においては、単一の手ポーズ推定に特化した従来手法をも上回る性能を達成した。コードはGitHubで公開されている(https://github.com/lzfff12/HFL-Net)。

インタラクティブな手-物体ポーズ推定のための調和的な特徴学習 | 最新論文 | HyperAI超神経