HyperAIHyperAI

Command Palette

Search for a command to run...

LP-OVOD:線形プロビングによるオープンボキャブラリーオブジェクト検出

Chau Pham Truong Vu Khoi Nguyen

概要

本稿では、学習時に未見クラスのラベル付き例が存在しない状況下で、テスト画像内の既視クラスおよび未見クラスの物体を検出する「オープンボリューム物体検出(Open-Vocabulary Object Detection: OVOD)」という困難な課題に取り組む。一般的なOVODアプローチとして、CLIPのテキスト・画像統合埋め込みを用いて、ボックス提案を最も類似したテキストラベルに割り当てる手法が用いられる。しかし、この手法には重大な課題が存在する。CLIPは物体の正確な位置情報に訓練されていないため、高品質なボックスと同様に、過剰に覆う(over-covered)または不十分に覆う(under-covered)など低品質なボックスも同じ類似度スコアを示してしまう。この問題を解決するために、本研究では新たな手法LP-OVODを提案する。この手法は、新規テキストに対して最も関連性の高い領域提案(region proposals)から取得した擬似ラベル(pseudo labels)を用いて、シグモイド線形分類器を学習し、低品質なボックスを棄却する。COCOデータセットにおける実験結果から、本手法は最先端技術を上回る性能を発揮し、バックボーンにResNet50を用いた場合、外部データセットの利用や訓練時に新規クラスを事前に知ることなく、40.5\textbf{40.5}40.5というAPnovel\text{AP}_{novel}APnovelを達成した。本研究のコードは、https://github.com/VinAIResearch/LP-OVOD にて公開される予定である。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
LP-OVOD:線形プロビングによるオープンボキャブラリーオブジェクト検出 | 記事 | HyperAI超神経