2ヶ月前
視覚認識に基づく参照画像セグメンテーションにおけるテキスト特徴:オブジェクト理解からコンテクスト理解へ
Hai Nguyen-Truong; E-Ro Nguyen; Tuan-Anh Vu; Minh-Triet Tran; Binh-Son Hua; Sai-Kit Yeung

要約
参照画像セグメンテーションは、自然言語の説明に基づいてピクセル単位のセグメンテーションマスクを生成するという課題であり、提供される文章の複雑さが増すにつれてその難易度も高まります。既存の手法では、主に視覚的な特徴を用いてセグメンテーションマスクを生成し、テキスト特徴を補助的な要素として扱う傾向がありました。しかし、このテキスト理解の活用不足により、モデルが与えられた表現を完全に理解する能力が制限されていました。本研究では、人間の認知プロセスに着想を得たVision-Aware Text Features(視覚認識型テキスト特徴)を用いて対象物と文脈の理解に特に重点を置いた新しいフレームワークを提案します。まず、CLIP Priorモジュールを導入して興味のある主要な対象物を局所化し、オブジェクトヒートマップをクエリ初期化プロセスに埋め込む方法を紹介します。次に、コンテクストマルチモーダルデコーダと意味的一貫性制約という2つのコンポーネントの組み合わせを提案し、画像から得られる文脈的理解と言語的ヒントの連携および一貫性解釈をさらに強化します。当手法はRefCOCO, RefCOCO+, G-Refという3つのベンチマークデータセットで著しい性能向上を達成しました。プロジェクトページ: \url{https://vatex.hkustvgd.com/}