多タスク視覚的根拠付けにおける粗密接から細密接への一貫性制約

マルチタスク視覚定位は、テキスト表現に基づいて画像において位置特定とセグメンテーションを同時に実行することを指します。先進的な手法の多くは、堅牢な多モーダル表現を抽出することを目指し、トランスフォーマーを基盤とする多モーダル融合に重点を置いています。しかし、参照表現理解(Referencing Expression Comprehension: REC)と参照画像セグメンテーション(Referencing Image Segmentation: RIS)の間の曖昧性は誤りを引き起こしやすく、マルチタスク予測間に一貫性がない問題が生じます。また、十分でない多モーダル理解は目標認識の偏りに直接的に寄与します。これらの課題を克服するため、我々は粗略から精密への一貫性制約視覚定位アーキテクチャ($\text{C}^3\text{VG}$)を提案します。このアーキテクチャは、二段階フレームワーク内で暗黙的および明示的なモデリング手法を統合しています。最初に、クエリデコーダとピクセルデコーダを使用して初期の検出とセグメンテーション出力を生成します。このプロセスは粗略意味認識(Rough Semantic Perception: RSP)段階と呼ばれます。その後、提案されたマスクガイド相互作用モジュール(Mask-guided Interaction Module: MIM)と新しい明示的双方向一貫性制約損失により、これらの粗い予測が精緻化され、各タスク間での一貫した表現が確保されます。これを精緻化一貫性相互作用(Refined Consistency Interaction: RCI)段階と呼びます。さらに、十分でない多モーダル理解という課題に対処するために、視覚言語融合表現に基づく事前学習モデルを利用しています。RefCOCO, RefCOCO+, および RefCOCOg データセットにおける経験的な評価では、$\text{C}^3\text{VG}$ の有効性と健全性が示されており、最新の REC および RIS メソッドに対して大幅に優れた性能を発揮しています。コードとモデルは \url{https://github.com/Dmmm1997/C3VG} で公開される予定です。