HyperAIHyperAI

Command Palette

Search for a command to run...

局所化された視覚言語マッチングによるオープンボキャブラリ物体検出

María A. Bravo Sudhanshu Mittal Thomas Brox

概要

本研究では、画像とキャプションのペアを基に、既知のクラス群とともに新しい物体クラスを検出するオープンボキャブラリー物体検出方法を提案します。この手法は、まず位置ガイド付き画像-キャプションマッチング技術を使用して、弱教師あり学習により新規および既知のクラスのラベルを学習し、次に既知のクラス注釈を使用して物体検出タスクに特化するモデルを訓練するという二段階のアプローチを採用しています。私たちは、新規物体の検出には大規模なコンテキスト化された言語モデルよりも単純な言語モデルの方が適していることを示しています。さらに、画像-キャプションペア情報をより効果的に活用するために一貫性正則化技術を導入しました。当手法はデータ効率が高く、既存のオープンボキャブラリー検出手法と比較しても優れた結果を示しています。ソースコードは https://github.com/lmb-freiburg/locov で公開されています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています