16日前

MSDNet:Transformer誘導型プロトタイピングを用いた少サンプルセマンティックセグメンテーションのためのマルチスケールデコーダ

Fateh, Amirreza, Mohammadi, Mohammad Reza, Motlagh, Mohammad Reza Jahed
MSDNet:Transformer誘導型プロトタイピングを用いた少サンプルセマンティックセグメンテーションのためのマルチスケールデコーダ
要約

Few-shot Semantic Segmentation(少サンプルセマンティックセグメンテーション)は、クエリ画像内のオブジェクトを、わずかなアノテーション付き例(サポート画像)に基づいてセグメンテーションするという課題に取り組む手法である。しかし、従来の最先端手法の多くは、複雑な局所的セマンティック特徴を無視せざるを得ない、あるいは高い計算量に起因する性能劣化を抱えている。こうした課題を解決するため、本研究ではTransformerアーキテクチャに基づく新しいFew-shot Semantic Segmentationフレームワークを提案する。本手法は、サポート画像とクエリ画像間の関係性理解を強化するため、空間変換デコーダ(spatial transformer decoder)および文脈的マスク生成モジュール(contextual mask generation module)を導入している。さらに、階層的に異なる解像度の特徴を統合することで、セグメンテーションマスクの精度を向上させるマルチスケールデコーダを採用している。また、エンコーダの中間段階から得られるグローバル特徴を統合することで文脈的理解を高めつつ、軽量な構造を維持し、計算複雑性を抑える。この性能と効率のバランスにより、本手法はPASCAL-5^iおよびCOCO-20^iといったベンチマークデータセットにおいて、1ショットおよび5ショット設定の両方で競争力のある結果を達成している。特に、パラメータ数がわずか150万のモデルでも、既存手法の限界を克服しつつ、優れた性能を発揮している。https://github.com/amirrezafateh/MSDNet