
汎化型少サンプルセマンティックセグメンテーション(GFSS)は、ベースクラスの十分なデータと新規クラスの少数サンプルを前提として、ベースクラスおよび新規クラスのピクセルを背景から同時に識別する。典型的なGFSSアプローチは、ベースクラス学習と新規クラス更新という2段階の学習フェーズを経る。しかしながら、このような独立した更新プロセスは、既に学習されたベースクラス特徴を損なうことが多く、結果としてベースクラスにおける性能低下を引き起こす。本論文では、正交プロトタイプへの射影(Projection onto Orthogonal Prototypes, POP)を活用する新たなアプローチを提案する。POPは、新規クラスを識別するための特徴を更新しつつ、ベースクラスの特徴を損なわないようにする。POPは、各セマンティッククラスを表す正交なプロトタイプの集合を構築し、各クラスの予測を、特徴をそのプロトタイプに射影した結果に基づいて個別に行う。技術的には、POPはまずベースデータ上でプロトタイプを学習し、その後、新規クラスに対応するプロトタイプを追加拡張する。POPの正交制約により、学習されたプロトタイプ間の直交性が保たれ、新規クラスのプロトタイプに一般化する際にベースクラス特徴への影響が軽減される。さらに、特徴射影の残差(residual)を背景表現として活用することで、更新フェーズにおけるセマンティックシフト(すなわち、背景に新規クラスのピクセルが含まれなくなる現象)を動的に捉える。2つのベンチマークにおける広範な実験結果から、POPはベースクラスの精度を大きく損なうことなく、新規クラスにおいて優れた性能を達成することが示された。特に、5ショット設定下でPASCAL-5iデータセットにおいて、最先端の微調整(fine-tuning)手法を3.93%のmIoU(平均交差率)で上回った。