予測の校正に関する一般化された少ショットセマンティックセグメンテーション

汎用少ショットセマンティックセグメンテーション(GFSS)は、各画像のピクセルを豊富な学習例を持つベースクラスまたは少数の(例えば1-5枚)学習画像しか持たない新規クラスに分割することを目指しています。新規クラスのみのセグメンテーションに限定される広く研究されている少ショットセマンティックセグメンテーション(FSS)と比較して、GFSSはより実用的であるにもかかわらず、その研究は十分に行われていません。既存のGFSSアプローチは、新たに訓練された新規クラス分類器と事前に訓練されたベースクラス分類器を組み合わせて新しい分類器を作成するための分類器パラメータ融合に基づいています。しかし、学習データの大半がベースクラスによって支配されているため、このアプローチは必然的にベースクラスに偏る傾向があります。本研究では、この問題に対処するために新たな予測校正ネットワーク(PCN)を提案します。分類器パラメータを融合する代わりに、ベースおよび新規分類器がそれぞれ独立して生成したスコアを融合します。融合されたスコアがベースクラスや新規クラスのいずれかに偏らないようにするために、新しいトランスフォーマーに基づく校正モジュールが導入されました。低レベル特徴量は高レベル特徴量よりも入力画像のエッジ情報を検出するために有用であることが知られています。したがって、我々は多層特徴量を融合して最終的な予測をガイドするクロスアテンションモジュールを構築しました。ただし、トランスフォーマーは計算負荷が高いです。特に、提案されたクロスアテンションモジュールがピクセルレベルでの学習で扱いやすいように設計され、推論時に一般化できるようエピソード的に訓練されています。これは特徴量-スコアクロス共分散に基づいています。PASCAL-$5^{i}$ および COCO-$20^{i}$ 上での広範な実験により、我々のPCNが現行の最先端手法に対して大幅に優れていることが示されました。