汎化少ショットセマンティックセグメンテーション

セマンティックセグメンテーションモデルの学習には大量の詳細に注釈されたデータが必要であり、この条件を満たさない新しいクラスへの迅速な適応が困難となっています。少ショットセグメンテーション(FS-Seg)は、多くの制約のもとでこの問題に対処しています。本論文では、新しいベンチマークである「汎化型少ショットセマンティックセグメンテーション(GFS-Seg)」を導入し、非常に少ない例を持つ新しいカテゴリと十分な例を持つベースカテゴリを同時にセグメンテーションする際の汎化能力を分析します。これは初めて、従来の代表的な最先端FS-Seg手法がGFS-Segにおいて不足していることを示し、性能の差異は主にFS-Segの制約された設定から来ていることを明らかにした研究です。GFS-Segを扱いやすくするために、元のモデルに構造的な変更を加えずに十分な性能を達成するGFS-Seg基準線を設けました。さらに、コンテキストがセマンティックセグメンテーションにとって重要であることに着目して、「コンテキストアウェアプロトタイプラーニング(CAPL)」という手法を提案します。CAPLは以下の2点により性能を大幅に向上させます:1) サポートサンプルからの共起事前知識を利用すること、2) 各クエリ画像の内容に基づいて動的にコンテキスト情報を分類器に追加すること。これらの2つの貢献は実験的にも実用的な価値があることが示されています。Pascal-VOCおよびCOCOでの広範な実験により、CAPLの有効性が確認され、CAPLは競合する性能を達成することでFS-Segにも良好に汎化することがわかりました。コードは https://github.com/dvlab-research/GFS-Seg で利用可能です。