3ヶ月前

ViPLO:視覚変換器に基づくポーズ条件付き自己ループグラフを用いた人間-オブジェクトインタラクション検出

Jeeseung Park, Jin-Woo Park, Jong-Seok Lee
ViPLO:視覚変換器に基づくポーズ条件付き自己ループグラフを用いた人間-オブジェクトインタラクション検出
要約

人間-物体間相互作用(Human-Object Interaction: HOI)検出は、人間と物体の間の関係を局所化し推論することで、シーン理解において重要な役割を果たしている。一方で、二段階型HOI検出器は学習および推論の面で高い効率性を有するが、従来のバックボーンネットワークおよび相互作用分類器における人間のHOI認識プロセスを十分に考慮していないことから、一段階型手法に比べて性能が劣っているという課題を抱えている。本論文では、これらの問題を解決するため、視覚変換器(Vision Transformer)に基づくポーズ制御型自己ループグラフ(Vision Transformer based Pose-Conditioned Self-Loop Graph: ViPLO)を提案する。まず、Vision Transformerバックボーンに適した新たな特徴抽出手法として、重複領域を用いたマスキング(Masking with Overlapped Area: MOA)モジュールを提案する。MOAモジュールは、各パッチと指定された領域との重複領域をアテンション関数内で活用することで、Vision Transformerバックボーンを用いる際の量子化問題を緩和する。さらに、ポーズに応じた自己ループ構造を持つグラフを設計し、人体関節の局所特徴を用いて人間ノードのエンコーディングを更新する。これにより、分類器が特定の人体関節に注目でき、相互作用の種類を効果的に識別できるようになる。この設計は、人間がHOIを認識するプロセスに着目したものである。その結果、ViPLOは2つの公開ベンチマークにおいて最先端の性能を達成し、特にHICO-DETデータセットにおいて+2.07 mAPの性能向上を達成した。ソースコードは以下のURLから公開されている:https://github.com/Jeeseung-Park/ViPLO。

ViPLO:視覚変換器に基づくポーズ条件付き自己ループグラフを用いた人間-オブジェクトインタラクション検出 | 論文 | HyperAI超神経