2ヶ月前
物体と画像レベルの表現のギャップを埋めるオープンボキャブラリ検出
Hanoona Rasheed; Muhammad Maaz; Muhammad Uzair Khattak; Salman Khan; Fahad Shahbaz Khan

要約
既存のオープンボキャブラリオブジェクト検出器は、異なる形式の弱い監督を活用することで、語彙数を拡大することが一般的です。これにより推論時に新しいオブジェクトへの汎化が可能になります。オープンボキャブラリ検出(OVD)でよく使用される2つの弱い監督の形式には、事前学習されたCLIPモデルと画像レベルの監督があります。しかし、これらの監督方法は検出タスクに対して最適にアラインされていないことに注目します:CLIPは画像とテキストのペアで学習され、オブジェクトの正確な位置特定が欠けています。一方、画像レベルの監督は、局所的なオブジェクト領域を正確に指定しないヒューリスティックを使用しています。本研究では、この問題に対処するために、CLIPモデルからの言語埋め込みをオブジェクト中心にアラインする手法を提案します。さらに、擬似ラベリングプロセスを使用して画像レベルの監督のみでオブジェクトを視覚的に接地し、高品質なオブジェクト候補を提供するとともに訓練中に語彙を拡張します。私たちは、上記2つのオブジェクトアラインメント戦略間の橋渡しを行うために、新たな重み転送関数を導入し、それらの相補的な強みを集約します。本提案モデルは、OVD設定においてオブジェクトと画像中心表現間のギャップを最小限に抑えることを目指しています。COCOベンチマークにおいて、提案手法は新規クラスで36.6 AP50を達成し、従来の最高性能に対して絶対値8.2ポイントの改善を示しました。またLVISにおいては、稀少カテゴリで最新のViLDモデルを超える5.0マスクAPおよび全体で3.4ポイントの改善を達成しました。コード: https://github.com/hanoonaR/object-centric-ovd.