11日前

ConsNet:ゼロショット人間-オブジェクトインタラクション検出のための一貫性グラフ学習

Ye Liu, Junsong Yuan, Chang Wen Chen
ConsNet:ゼロショット人間-オブジェクトインタラクション検出のための一貫性グラフ学習
要約

人間-物体インタラクション(HOI)検出という問題に着目し、画像内における「<人間, 動作, 物体>」の形で表されるHOIインスタンスの位置特定と認識を目的とする。既存の多くはHOIを個別のインタラクションカテゴリとして扱うため、動作ラベルの長尾分布および多義性(polysemy)の問題に対処できない。本研究では、物体、動作、インタラクションの間における多層的整合性(multi-level consistencies)が、稀なあるいはこれまでに観測されたことのないHOIの意味的表現を生成する強力な手がかりであると主張する。HOIラベルが持つ構成的・関係的特徴を活用し、物体・動作・インタラクション間の関係を無向グラフとして表現する「整合性グラフ(consistency graph)」に明示的に符号化する知識認識型フレームワーク、ConsNetを提案する。さらに、グラフ注意ネットワーク(GATs)を用いて、HOIカテゴリおよびその構成要素間での知識の伝搬を実現する。本モデルは、候補となる人間-物体ペアの視覚特徴とHOIラベルの単語埋め込みを入力とし、それらを視覚-意味統合埋め込み空間にマッピングした上で、類似度の測定により検出結果を取得する。提案手法は、挑戦的なV-COCOおよびHICO-DETデータセット上で広範に評価され、完全教師ありおよびゼロショット設定の両方で最先端手法を上回る性能を示した。コードは https://github.com/yeliudev/ConsNet で公開されている。

ConsNet:ゼロショット人間-オブジェクトインタラクション検出のための一貫性グラフ学習 | 最新論文 | HyperAI超神経