2ヶ月前

SafaRi: 弱い教師付き参照表現セグメンテーションのための適応型シーケンストランスフォーマー

Sayan Nag; Koustava Goswami; Srikrishna Karanam
SafaRi: 弱い教師付き参照表現セグメンテーションのための適応型シーケンストランスフォーマー
要約

指し示し表現セグメンテーション(Referring Expression Segmentation: RES)は、テキスト(すなわち、指し示し表現)で参照される画像中の対象物体のセグメンテーションマスクを提供することを目指しています。既存の手法では、大規模なマスクアノテーションが必要とされています。さらに、これらの手法は未見の/ゼロショットのシナリオに十分に汎化しないという問題があります。上記の課題に対処するため、我々はRES用の弱教師ありブートストラッピングアーキテクチャを提案し、いくつかの新しいアルゴリズム革新を取り入れています。当研究において、我々が提案する方法は、マスクとボックスアノテーションの一部のみを使用して訓練を行う初めてのアプローチであると認識しています(図1および表1参照)。このような低アノテーション設定でのモデル訓練を可能とし、画像-テキスト領域レベルの整合性を改善するとともに、画像中の対象物体の空間的な位置特定を一層向上させるために、クロスモーダル融合注意力一貫性モジュール(Cross-modal Fusion with Attention Consistency module)を提案します。また、未ラベルサンプルに対する自動疑似ラベリングのために、空間認識ゼロショット提案スコアリング手法に基づく新たなマスク有効性フィルタリングルーチンを導入します。広範な実験により、SafaRiモデルは30%のアノテーションのみでRefCOCO+@testAデータセットでは59.31 mIoU、RefCOCO+testBデータセットでは48.26 mIoUを達成しました。これは完全教師あり最先端手法SeqTRがそれぞれ58.93 mIoUと48.19 mIoUを得た結果と比較しても優れています。またSafaRiは完全教師あり設定でもSeqTRに対してRefCOCO+@testAデータセットで11.7%、RefCOCO+testBデータセットで19.6%上回り、未見の/ゼロショットタスクにおける強力な汎化能力を示しています。

SafaRi: 弱い教師付き参照表現セグメンテーションのための適応型シーケンストランスフォーマー | 最新論文 | HyperAI超神経