
要約
本研究では、クエリ画像とサポート画像間の高次元相関マップを効率的に処理するため、畳み込みとトランスフォーマーの両方を活用する新しいコスト集約ネットワーク「ボリュメトリックアグリゲーション with Transformers(VAT)」を提案する。具体的には、相関マップをより扱いやすいサイズに変換するとともに、畳み込みモデルに内在するインダクティブバイアスを導入する「ボリューム埋め込みモジュール」と、コスト集約を担う「ボリュメトリックトランスフォーマーモジュール」から構成されるエンコーダーを設計した。本エンコーダーは、粗いレベルの集約が細かいレベルの集約を指導するように、ピラミッド構造を採用しており、補完的なマッチングスコアの学習を促進する。その後、この出力を、投影された特徴マップとともに、アフィニティに敏感なデコーダーへ入力し、セグメンテーションプロセスをガイドする。これらのモジュールを統合した本手法は、多数の実験を通じて有効性を実証し、少サンプルセグメンテーションタスクにおけるすべての標準ベンチマークで、新たな最先端性能(SOTA)を達成した。さらに、本手法は特にこのタスクに最適化されていないにもかかわらず、セマンティック対応タスクの標準ベンチマークにおいても、最先端の性能を達成することが明らかになった。また、アーキテクチャ選定の妥当性を検証するため、広範なアブレーションスタディを実施した。学習済み重みおよびコードは以下のURLから公開されている:https://seokju-cho.github.io/VAT/。