2ヶ月前

局所化された視覚言語マッチングによるオープンボキャブラリ物体検出

Maria A. Bravo; Sudhanshu Mittal; Thomas Brox
局所化された視覚言語マッチングによるオープンボキャブラリ物体検出
要約

本研究では、画像とキャプションのペアを基に、既知のクラス群とともに新しい物体クラスを検出するオープンボキャブラリー物体検出方法を提案します。この手法は、まず位置ガイド付き画像-キャプションマッチング技術を使用して、弱教師あり学習により新規および既知のクラスのラベルを学習し、次に既知のクラス注釈を使用して物体検出タスクに特化するモデルを訓練するという二段階のアプローチを採用しています。私たちは、新規物体の検出には大規模なコンテキスト化された言語モデルよりも単純な言語モデルの方が適していることを示しています。さらに、画像-キャプションペア情報をより効果的に活用するために一貫性正則化技術を導入しました。当手法はデータ効率が高く、既存のオープンボキャブラリー検出手法と比較しても優れた結果を示しています。ソースコードは https://github.com/lmb-freiburg/locov で公開されています。

局所化された視覚言語マッチングによるオープンボキャブラリ物体検出 | 最新論文 | HyperAI超神経