15日前

リトリーブ増強型オープンボリュームオブジェクト検出

Jooyeon Kim, Eulrang Cho, Sehyung Kim, Hyunwoo J. Kim
リトリーブ増強型オープンボリュームオブジェクト検出
要約

オープンボリュームオブジェクト検出(OVD)は、視覚言語モデル(VLM)を活用して、事前学習済みのカテゴリ以外の新規オブジェクトを検出するための研究が進められている。従来の手法は、「ポジティブな」擬似ラベルを用い、追加の「クラス名」(例:ソックス、iPod、アリゲーター)を導入することで、検出器の汎化能力を向上させ、知識の拡張を図っていた。本研究では、この既存手法を二つの観点から拡張するため、リトリーバル拡張損失および視覚特徴(RALF)を提案する。本手法は、関連する「ネガティブクラス」を検索し、損失関数を拡張する。同時に、クラスの「言語化概念」(例:足に着用される、手に持つ音楽プレーヤー、鋭い歯)を用いて視覚特徴を拡張する。具体的には、RALFは2つのモジュールから構成される:リトリーバル拡張損失(RAL)とリトリーバル拡張視覚特徴(RAF)。RALは、ネガティブ語彙との意味的類似性を反映する2つの損失関数を構成する。また、RAFは大規模言語モデル(LLM)から得られる言語化概念を用いて視覚特徴を拡張する。実験の結果、RALFはCOCOおよびLVISのベンチマークデータセットにおいて有効性を示した。COCOデータセットの新規カテゴリにおいて、ボックスAP${50}^{\text{N}}$で最大3.4の向上を達成し、LVISデータセットではマスクAP${\text{r}}$で最大3.6の改善を実現した。コードは以下のURLで公開されている:https://github.com/mlvlab/RALF。

リトリーブ増強型オープンボリュームオブジェクト検出 | 最新論文 | HyperAI超神経