11日前

VLT：参照セグメンテーションのための視覚言語変換器とクエリ生成

Henghui Ding, Chang Liu, Suchen Wang, Xudong Jiang

要約

我々は、マルチモーダル情報間の深層的な相互作用を促進し、視覚言語特徴に対する包括的理解を向上させるために、参照セグメンテーションを目的とした視覚言語変換器（Vision-Language Transformer: VLT）フレームワークを提案する。言語表現の動的な強調は、画像と対話する際、さまざまな方法で解釈される可能性がある。しかし、従来のTransformerモデルでは、学習後にクエリが固定されてしまうため、言語表現のランダム性および多様性に対応できない。この問題を解決するために、入力に応じて動的に複数のクエリセットを生成する「クエリ生成モジュール」を提案する。これにより、言語表現に対する多様な解釈を表現可能となる。これらの多様な解釈の中から最適なものを選定し、より良いマスクを生成するために、「クエリバランスモジュール」を導入し、複数クエリに対応する応答を選択的に統合する。さらに、モデルが異なる言語表現による同一対象の理解能力を高めるために、サンプル間学習（inter-sample learning）を導入する。同一対象に対する異なる表現の特徴を近づける一方で、異なる対象の特徴を明確に区別するため、マスク付き対比学習（masked contrastive learning）を採用する。本手法は軽量でありながら、5つのデータセットにおいて一貫して最新の最先端性能を達成した。