Few-shot セマンティックセグメンテーションにおけるディフュージョンモデルの潜在能力の解き放ち

拡散モデル(Diffusion Model)は、画像生成分野において顕著な成果を収めただけでなく、ラベルの付与されていないデータを活用した有効な事前学習手法としての可能性も示している。拡散モデルが意味的対応(semantic correspondence)およびオープンボキャブラリーセグメンテーション(open vocabulary segmentation)において示した広大な潜在能力を踏まえ、本研究では潜在拡散モデル(Latent Diffusion Model)を用いた少サンプルセグメンテーション(Few-shot Semantic Segmentation)への応用を初めて検討する。近年、大規模言語モデルの文脈内学習(in-context learning)能力に触発され、少サンプルセグメンテーションは文脈内セグメンテーション(In-context Segmentation)へと進化し、汎用セグメンテーションモデルの評価において重要な要素となっている。このような文脈において、本研究では少サンプルセグメンテーションに焦点を当て、将来的な拡散モデルベースの汎用セグメンテーションモデルの発展に向けた堅固な基盤を築くことを目的とする。まず、クエリ画像とサポート画像の間での相互作用を促進する方法を理解することに注力し、自己注意機構(self-attention framework)内に新たなKV融合手法(KV fusion method)を提案する。さらに、サポートマスクからの情報の効果的な統合を最適化するとともに、クエリマスクからの適切な監視信号の提供方法を再評価する。これらの分析に基づき、元の潜在拡散モデルの生成フレームワークを最大限に保持しつつ、事前学習済みの事前知識を効果的に活用できるシンプルかつ効果的なフレームワーク「DiffewS」を構築した。実験結果から、本手法が複数の設定において従来のSOTA(最良手法)を顕著に上回ることが確認された。