2ヶ月前
すべてのためのポーズ:カテゴリに依存しない姿勢推定
Xu, Lumin ; Jin, Sheng ; Zeng, Wang ; Liu, Wentao ; Qian, Chen ; Ouyang, Wanli ; Luo, Ping ; Wang, Xiaogang

要約
既存の2次元姿勢推定に関する研究は、主に特定のカテゴリ(例:人間、動物、車両)に焦点を当てています。しかし、多くの応用シナリオでは、未知の物体クラスの姿勢やキーポイントを検出する必要があります。本論文では、Category-Agnostic Pose Estimation (CAPE)というタスクを紹介します。このタスクは、わずかなサンプルとキーポイント定義のみを与えることで、任意の物体クラスの姿勢を検出できるモデルを作成することを目指しています。この目標を達成するために、姿勢推定問題をキーポイントマッチング問題として定式化し、新しいCAPEフレームワークであるPOse Matching Network (POMNet)を設計しました。また、異なるキーポイント間の相互作用とサポート画像とクエリ画像との関係性を捉えるため、TransformerベースのKeypoint Interaction Module (KIM)を提案しています。さらに、100種類の物体カテゴリで構成され、2万件以上のインスタンスが含まれる多カテゴリ姿勢データセット(Multi-category Pose (MP-100))も紹介します。このデータセットはCAPEアルゴリズムを開発するために適切に設計されています。実験結果は、当手法が他の基準アプローチよりも大幅に優れていることを示しています。コードとデータは https://github.com/luminxu/Pose-for-Everything から入手可能です。