16日前

パッチ整合型対比学習を用いたオープンボキャブラリーセマンティックセグメンテーション

Jishnu Mukhoti, Tsung-Yu Lin, Omid Poursaeed, Rui Wang, Ashish Shah, Philip H.S. Torr, Ser-Nam Lim
パッチ整合型対比学習を用いたオープンボキャブラリーセマンティックセグメンテーション
要約

我々は、CLIPの対比学習損失に向けた修正された適合性関数として、Patch Aligned Contrastive Learning(PACL)を提案する。本手法は、視覚エンコーダのピッチトークンとテキストエンコーダのCLSトークンとの間のアライメントを学習することを目的としている。このアライメントにより、モデルは特定のテキスト入力に対応する画像内の領域を識別可能となり、トレーニング時にセグメンテーションのラベルを一切必要とせずに、オープンボリュームのセマンティックセグメンテーションタスクにスムーズに転移できる。事前学習済みのCLIPエンコーダをPACLと組み合わせることで、Pascal VOC、Pascal Context、COCO Stuff、ADE20Kの4つの異なるセグメンテーションベンチマークにおいて、オープンボリュームゼロショットセグメンテーションのタスクで最先端の性能を達成した。さらに、PACLが画像レベルの予測にも適用可能であることを示し、CLIPのバックボーンと組み合わせた場合、12の画像分類データセットを対象とした一連の実験において、CLIPに比べてゼロショット分類精度が一貫して向上することを確認した。

パッチ整合型対比学習を用いたオープンボキャブラリーセマンティックセグメンテーション | 最新論文 | HyperAI超神経