2ヶ月前

Vision-Language Transformer と参照セグメンテーションのためのクエリ生成

Ding, Henghui ; Liu, Chang ; Wang, Suchen ; Jiang, Xudong
Vision-Language Transformer と参照セグメンテーションのためのクエリ生成
要約

本研究では、指し示し分割(referring segmentation)という難問に取り組んでいます。指し示し分割におけるクエリ表現は通常、対象オブジェクトが他のオブジェクトとの関係を説明することで指示されます。したがって、画像内のすべてのインスタンスから対象オブジェクトを見つけるためには、モデルが全体的な画像の理解を持つ必要があります。これを達成するために、私たちは指し示し分割を直接的な注意問題として再定式化しました:つまり、クエリ言語表現が最も注目される画像の領域を見つけ出す問題です。私たちはトランスフォーマーとマルチヘッド注意機構を導入して、エンコーダー-デコーダー注意機構アーキテクチャを持つネットワークを構築しました。このネットワークは言語表現を使って与えられた画像を「照会」します。さらに、異なる視点から言語表現の多様な理解を表す複数のクエリセットと異なる注意重みを生成するためのクエリ生成モジュール(Query Generation Module)を提案しています。同時に、視覚的ヒントに基づいてこれらの多様な理解の中から最良の方法を見つけるために、出力特徴量を選択的に適応するクエリバランスモジュール(Query Balance Module)も提案しています。これによりより良いマスク生成が可能となります。装飾的な要素なく、当方針は軽量であり、RefCOCO, RefCOCO+, および G-Ref の3つの指し示し分割データセットで一貫して最新の最先端性能を達成しています。コードは https://github.com/henghuiding/Vision-Language-Transformer で公開されています。

Vision-Language Transformer と参照セグメンテーションのためのクエリ生成 | 最新論文 | HyperAI超神経