グループベースのセグメンテーション向け統一トランスフォーマー枠組み: 共セグメンテーション、共サリエンシー検出およびビデオサリエントオブジェクト検出

人間は動的な世界に住んでいるため、画像のグループやビデオの数フレームから学習することで対象物を掘り起こす傾向があります。コンピュータビジョン分野では、共発生する物体を見つけるために共セグメンテーション(CoS)、共サリエンシー検出(CoSD)およびビデオサリエントオブジェクト検出(VSOD)に多くの研究が注力されています。しかし、従来のアプローチはこれらの類似したタスクに対して異なるネットワークを個別に設計しており、相互適用が困難で、深層学習フレームワークの転移可能性の上限を低下させています。また、画像グループ内の特徴量間の相互作用と内部的な手がかりを十分に活用できていません。本論文では、これらの問題に対処する統一フレームワークであるUFO(Unified Framework for Co-Object Segmentation)を提案します。具体的には、まずトランスフォーマーブロックを導入し、画像特徴量をパッチトークンとして扱い、自己注意機構を通じてその長距離依存関係を捉えます。これによりネットワークは関連する物体間のパッチ構造的な類似性を掘り起こすことができます。さらに、部分的な活性化を避けるために自己マスクを作成するintra-MLP学習モジュールを提案します。4つのCoSベンチマーク(PASCAL, iCoseg, Internet, MSRC)、3つのCoSDベンチマーク(Cosal2015, CoSOD3k, CocA)および4つのVSODベンチマーク(DAVIS16, FBMS, ViSal, SegV2)における広範な実験結果は、同一のネットワークアーキテクチャを使用して当手法が3つの異なるタスクにおいて精度と速度の両面で他の最先端手法を超えることを示しています。リアルタイム処理では140 FPSに達することが可能です。