
要約
少数のアノテーション付きサンプルを用いたセマンティックセグメンテーションモデルの訓練は、さまざまな実世界応用において大きな可能性を秘めている。少数ショットセグメンテーションタスクにおいて主な課題は、限られた学習データのもとで、サポートサンプルとクエリサンプル間のセマンティック対応関係を正確に測定することである。この問題に対処するため、本研究では可学習な共分散行列を可変的な4次元Transformerを用いて集約することで、セグメンテーションマップを効果的に予測する手法を提案する。具体的には、本研究ではまず、ガウス過程における共分散カーネルの学習を目的とした新たなハード例マイニング機構を設計した。学習された共分散カーネル関数は、従来のコサイン類似度に基づく手法に比べ、対応関係の測定において顕著な優位性を示す。この学習された共分散カーネルを基盤として、特徴類似度マップを適応的に集約してセグメンテーション結果を生成する、効率的な二重可変4次元Transformerモジュールを構築した。これらの2つの設計を統合することにより、提案手法は公開ベンチマークにおいて新たなSOTA(最先端)性能を達成するだけでなく、既存手法と比較して極めて高速に収束することが実証された。3つの公開データセットを用いた実験により、本手法の有効性が明確に示された。