HyperAIHyperAI

Command Palette

Search for a command to run...

地域認識プリトレーニングを用いた Vision Transformers を活用したオープンボキャブラリ物体検出

Dahun Kim; Anelia Angelova; Weicheng Kuo

概要

我々はRegion-aware Open-vocabulary Vision Transformers (RO-ViT)を提案します。これは、画像レベルの事前学習とオープンボキャブラリオブジェクト検出の間のギャップを埋めるための対照的な画像-テキスト事前学習手法です。事前学習フェーズでは、位置エンベッディング全体を使用する代わりに、位置エンベッディングの領域をランダムに切り取り、リサイズすることを提案します。これにより、検出微調整フェーズでの領域レベルでの位置エンベッディングの使用との整合性がより高まります。さらに、対照的学習における一般的なソフトマックスクロスエントロピー損失を置き換え、情報量が多くかつ難しいサンプルをより効果的に学習するためにフォーカル損失を使用します。最後に、最近の新規オブジェクト提案手法の進歩を利用して、オープンボキャブラリ検出の微調整を改善します。我々は完全なモデルについてLVISおよびCOCOオープンボキャブラリ検出ベンチマークとゼロショット転移で評価しました。RO-ViTはLVISで最新の34.1 APrAP_rAPr を達成し、既存の最良アプローチを超える+7.8ポイントとともに競争力のあるゼロショット転移検出も実現しています。驚くべきことに、RO-ViTは画像レベル表現も向上させ、COCOおよびFlickr画像-テキスト検索ベンチマークにおいて12つの指標中の9つで最新の成果を達成し、より大きなモデルを持つ競合アプローチを上回っています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています