3ヶ月前

何をデコードするか、何を学習するかに注目する:特定ターゲットを指向するデノイジングと視覚言語アドバイザーを用いたSOVデコード

Junwen Chen, Yingcheng Wang, Keiji Yanai
何をデコードするか、何を学習するかに注目する:特定ターゲットを指向するデノイジングと視覚言語アドバイザーを用いたSOVデコード
要約

最近のTransformerベースの手法は、DETRによる検出と視覚言語モデル(VLM)の事前知識を活用することで、人間-オブジェクトインタラクション検出(HOID)タスクにおいて顕著な性能向上を達成している。しかし、これらの手法は、デコーディングプロセス中にオブジェクト検出とHOI認識が複雑に絡み合うため、訓練時間の延長および最適化の複雑化という課題を抱えている。特に、ラベルとボックスの両方を予測するために使用されるクエリ埋め込みは曖昧な表現を示し、HOIラベルの予測と動詞ラベルの予測の間のギャップが無視されている。こうした課題に対処するため、本研究では三つの主要構成要素を備えたSOV-STG-VLAを提案する。これらは、主語-目的語-動詞(SOV)デコーディング、特定ターゲットガイドド(STG)ノイズ除去、および視覚言語アドバイザー(VLA)である。我々のSOVデコーダーは、新たなインタラクション領域表現を用いて、オブジェクト検出と動詞認識を分離する。STGノイズ除去戦略は、真値情報に基づいたラベル埋め込みを学習し、訓練および推論をガイドする。SOV-STGは高速な収束速度と高い精度を実現し、VLAがVLMの事前知識を統合する基盤を構築する。さらに、インタラクション領域情報とVLMの視覚的知識を融合するための視覚アドバイザー・デコーダーと、インタラクション表現学習を促進するための動詞-HOI予測ブリッジを導入した。本手法におけるVLAは、SOV-STGの性能を顕著に向上させ、最近のSOTA手法と比較して訓練エポック数を六分の一に抑えた状態でSOTA性能を達成した。コードおよびモデルは、https://github.com/cjw2021/SOV-STG-VLA にて公開されている。