2ヶ月前

視覚関係と属性検出のための深層変動構造強化学習

Xiaodan Liang; Lisa Lee; Eric P. Xing
視覚関係と属性検出のための深層変動構造強化学習
要約

画像分類や検出などの視覚認識タスクにおいて進歩が見られる一方で、コンピュータは依然としてシーン全体における物体間の相互依存関係、例えば物体間の関係性や属性を理解するのに苦労しています。既存の手法では、異なる物体インスタンス間の相互作用を捉えるための全体的な文脈情報がしばしば無視され、可能なすべての関係性に対して個別の検出器を網羅的に訓練することでしか、限られた種類の認識が達成できません。このような全体的な相互依存関係を捉えるために、私たちは深層変動構造強化学習(VRL)フレームワークを提案します。このフレームワークは、画像全体から順次的に物体の関係性と属性を発見することを目指しています。まず、言語事前知識を使用して有向セマンティックアクショングラフを構築し、物体カテゴリ、述語、および属性間のセマンティック相関を豊かかつコンパクトに表現します。次に、アクショングラフ上の変動構造トラバーサルを使用して、現在の状態と歴史的なアクションに基づいて各ステップごとに小さな適応的なアクションセットを作成します。特に、物体検出器が区別できない物体カテゴリ間のセマンティック曖昧性を解消するために、曖昧性対応型物体マイニングスキームを使用します。その後、深層強化学習(RL)フレームワークを使用して順次予測を行い、状態ベクトルに全体的な文脈情報と以前に抽出されたフレーズのセマンティック埋め込みを取り入れます。Visual Relationship Detection (VRD) データセットと大規模な Visual Genome データセットでの実験結果により、VRL の優位性が確認されました。数千種類もの関係性和属性タイプが含まれるデータセットにおいても著しく優れた検出結果を得ることができます。また、共有グラフノード上で相関関係を学習することで、アクショングラフに埋め込まれた未見のタイプも予測できることが示されています。

視覚関係と属性検出のための深層変動構造強化学習 | 最新論文 | HyperAI超神経