11日前

LP-OVOD：線形プロビングによるオープンボキャブラリーオブジェクト検出

Chau Pham, Truong Vu, Khoi Nguyen

要約

本稿では、学習時に未見クラスのラベル付き例が存在しない状況下で、テスト画像内の既視クラスおよび未見クラスの物体を検出する「オープンボリューム物体検出（Open-Vocabulary Object Detection: OVOD）」という困難な課題に取り組む。一般的なOVODアプローチとして、CLIPのテキスト・画像統合埋め込みを用いて、ボックス提案を最も類似したテキストラベルに割り当てる手法が用いられる。しかし、この手法には重大な課題が存在する。CLIPは物体の正確な位置情報に訓練されていないため、高品質なボックスと同様に、過剰に覆う（over-covered）または不十分に覆う（under-covered）など低品質なボックスも同じ類似度スコアを示してしまう。この問題を解決するために、本研究では新たな手法LP-OVODを提案する。この手法は、新規テキストに対して最も関連性の高い領域提案（region proposals）から取得した擬似ラベル（pseudo labels）を用いて、シグモイド線形分類器を学習し、低品質なボックスを棄却する。COCOデータセットにおける実験結果から、本手法は最先端技術を上回る性能を発揮し、バックボーンにResNet50を用いた場合、外部データセットの利用や訓練時に新規クラスを事前に知ることなく、$\textbf{40.5}$という$\text{AP}_{novel}$を達成した。本研究のコードは、https://github.com/VinAIResearch/LP-OVOD にて公開される予定である。