2ヶ月前

オープンボキャブラリ語義分割における画像埋め込みのバランス調整

Xiangheng Shan; Dongyue Wu; Guilin Zhu; Yuanjie Shao; Nong Sang; Changxin Gao
オープンボキャブラリ語義分割における画像埋め込みのバランス調整
要約

オープンボキャブラリの意味分割は、モデルが閉集合語彙を超えて画像の意味マスクを出力する必要があるため、困難な課題です。多くの研究で強力なCLIPモデルを用いてこの課題に取り組んできましたが、訓練クラスと新しいクラス間の意味情報の自然なギャップにより、訓練クラスに対して過学習しやすいという問題があります。この課題を克服するために、私たちはEBSegと呼ばれる新たなオープンボキャブラリの意味分割フレームワークを提案します。EBSegには適応的にバランスを取るデコーダ(AdaB デコーダ)と意味構造の一貫性損失(SSC 損失)が組み込まれています。AdaB デコーダは、訓練クラスと新しいクラスの両方に対して異なる画像埋め込みを生成することを目的として設計されています。その後、これらの2種類の埋め込みは適応的にバランスを取り、訓練クラスの認識能力と新しいクラスへの汎化能力を最大限に活用します。CLIPから一貫した意味構造を学習するために、SSC 損失は画像特徴空間におけるクラス間の親和性をCLIPのテキスト特徴空間におけるそれと合わせることで、モデルの汎化能力を向上させます。さらに、私たちは低解像度での訓練画像やCLIP固有の画像レベル監督によって欠けている空間情報を補完するために、凍結されたSAM画像エンコーダーを使用しています。様々なベンチマークにおいて実施された広範な実験結果は、提案するEBSegが最先端手法を上回っていることを示しています。私たちのコードと学習済みモデルは以下のURLから入手できます: https://github.com/slonetime/EBSeg.