16日前

DifFSS:Few-Shot Semantic Segmentationのための拡散モデル

Weimin Tan, Siyuan Chen, Bo Yan
DifFSS:Few-Shot Semantic Segmentationのための拡散モデル
要約

拡散モデル(Diffusion models)は、画像生成において優れた性能を示している。一方で、さまざまなネットワーク構造を持つ少数ショットセマンティックセグメンテーション(Few-shot Semantic Segmentation, FSS)モデルが提案されてきたが、性能向上は飽和状態に達している。本論文では、FSSタスクに拡散モデルを初めて活用する取り組み、すなわちDifFSSを提案する。DifFSSは、既存の最先端FSSモデルのネットワーク構造を変更することなく、大幅に性能を向上させる新しいFSSパラダイムである。具体的には、拡散モデルの強力な生成能力を活用し、サポート画像のセマンティックマスク、スクリブル(線画)、またはソフトなHED境界を制御条件として用いて、多様な補助的サポート画像を生成する。この生成プロセスにより、クエリ画像のクラス内における多様性(色、テクスチャの変化、照明条件など)を模倣することができる。その結果、FSSモデルはより多様なサポート画像を参照可能となり、より堅牢な表現を獲得できるようになり、一貫したセグメンテーション性能の向上が実現される。既存の最先端FSSモデルを用いた3つの公開データセットにおける広範な実験により、拡散モデルがFSSタスクにおいて有効であることが実証された。さらに、拡散モデルの異なる入力設定がセグメンテーション性能に与える影響についても詳細に検討した。本研究で提示するこの全く新しいパラダイムが、AI生成コンテンツを統合したFSS研究に新たなインスピレーションを提供することを期待する。コードは以下のURLで公開されている:https://github.com/TrinitialChan/DifFSS

DifFSS:Few-Shot Semantic Segmentationのための拡散モデル | 最新論文 | HyperAI超神経