11日前

ラベルなしデータを活用した視覚および言語モデルを用いたオブジェクト検出

Shiyu Zhao, Zhixing Zhang, Samuel Schulter, Long Zhao, Vijay Kumar B.G, Anastasis Stathopoulos, Manmohan Chandraker, Dimitris Metaxas
ラベルなしデータを活用した視覚および言語モデルを用いたオブジェクト検出
要約

堅牢かつ汎用的な物体検出フレームワークの構築には、より広範なラベル空間およびより大きなトレーニングデータセットへのスケーリングが不可欠である。しかし、数千ものカテゴリに対して大規模にアノテーションを取得することは現実的にコストが高すぎる。本研究では、近年の視覚言語モデル(Vision-Language Models, VLMs)に内在する豊富な意味情報を活用し、ラベルのない画像において物体の位置とクラスを推定する新しい手法を提案する。この手法により、物体検出用の擬似ラベル(pseudo labels)を効果的に生成できる。我々は、汎用的かつクラスに依存しない領域提案機構を出発点とし、視覚言語モデルを用いて画像内の各領域を、後続のタスクで必要となる任意の物体カテゴリに分類する。提案手法の有効性を、開発言語検出(open-vocabulary detection)および半教師あり物体検出(semi-supervised object detection)という二つの具体的なタスクにおいて検証した。前者では、未観測の物体カテゴリへの一般化能力が求められ、後者では追加のラベルなし画像を活用してモデル性能を向上させることが可能となる。実験評価の結果、両タスクにおいて生成された擬似ラベルが有効であることが示され、競合するベースラインを上回り、開発言語物体検出において新たな最先端(state-of-the-art)性能を達成した。本研究のコードは、https://github.com/xiaofeng94/VL-PLM にて公開されている。

ラベルなしデータを活用した視覚および言語モデルを用いたオブジェクト検出 | 最新論文 | HyperAI超神経