HyperAIHyperAI

Command Palette

Search for a command to run...

CoDet: 共起ガイド付き領域-単語対応付けによるオープンボキャブラリ物体検出

Ma Chuofan ; Jiang Yi ; Wen Xin ; Yuan Zehuan ; Qi Xiaojuan

概要

画像とテキストのペアから信頼性のある領域-単語対応を導き出すことは、オープンボキャブラリー物体検出のためのオブジェクトレベルの視覚言語表現を学習する上で重要です。既存の手法は通常、事前学習または自己学習された視覚言語モデルに依存して対応を行いますが、これらのモデルは位置特定の精度や汎化能力において制限がある傾向があります。本論文では、CoDet(コデット)と呼ばれる新しいアプローチを提案します。このアプローチは、領域-単語対応を共起する物体発見問題として再定式化することで、事前対応した視覚言語空間への依存を克服します。直感的には、キャプションで共有概念が言及されている画像をグループ化することで、その共有概念に対応する物体がグループ内で高い共起率を持つことが期待されます。CoDetは視覚的な類似性を利用して共起する物体を見つけて、それらを共有概念と対応させます。広範な実験により、CoDetがオープンボキャブラリー検出において優れた性能と魅力的なスケーラビリティを持つことが示されています。例えば、視覚バックボーンを拡大することで、OV-LVISデータセット上で37.0 APnovelm\text{AP}^m_{novel}APnovelm および 44.7 APallm\text{AP}^m_{all}APallm を達成し、従来の最先端技術(SoTA)をそれぞれ4.2 APnovelm\text{AP}^m_{novel}APnovelm および 9.8 APallm\text{AP}^m_{all}APallm 上回っています。コードは https://github.com/CVMI-Lab/CoDet で入手可能です。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
CoDet: 共起ガイド付き領域-単語対応付けによるオープンボキャブラリ物体検出 | 記事 | HyperAI超神経