協同的な視覚-テキスト表現の最適化を用いたオープンボキャブラリ分割

事前学習された視覚言語モデル(例:CLIP)は、その視覚とテキストの埋め込み空間がよく整備されていることから、オープンボキャブラリ分割(OVS)という難問に対処するために近年ますます利用されるようになっています。一般的な解決策には、CLIPを訓練中に凍結してゼロショット能力を一方的に維持する方法や、CLIPの視覚エンコーダを微調整して局所領域への感度を向上させる方法があります。しかし、これらの多くは視覚とテキストの協調最適化を取り入れていません。この点に着目し、私たちはコンテンツ依存転送(Content-Dependent Transfer)を提案します。これは、入力画像との相互作用を通じて各テキスト埋め込みを適応的に強化し、パラメータ効率の高い方法でテキスト表現を最適化するものです。さらに、表現補償戦略も導入しました。これは、元のCLIP-V表現を補償として見直し、CLIPのゼロショット能力を維持することを目指しています。これにより、CLIPの視覚とテキスト表現が協調的に最適化され、視覚-テキスト特徴空間の整合性が向上します。私たちが知る限りでは、OVS分野においてこのような協調的な視覚-テキスト最適化機構を確立したのは初めてです。広範な実験結果は、当社の手法が人気のあるOVSベンチマークで優れた性能を達成していることを示しています。オープンボキャブラリセマンティックセグメンテーションにおいては、A-847, A-150, PC-459, PC-59, PAS-20それぞれで+0.5, +2.3, +3.4, +0.4, +1.1 mIoUという成果で既存の最先端アプローチを超える性能を発揮しました。また、ADE20Kでのパンオプティック設定では27.1 PQ, 73.5 SQ, 32.9 RQという性能を達成しています。コードは以下のURLから入手可能です: https://github.com/jiaosiyu1999/MAFT-Plus.git .