HyperAIHyperAI

Command Palette

Search for a command to run...

簡易なオープンボキャブラリオブジェクト検出におけるビジョントランスフォーマーの利用

概要

単純なアーキテクチャと大規模事前学習の組み合わせは、画像分類において大幅な改善をもたらしました。物体検出に関しては、特に長尾分布やオープンボキャブラリ設定において、訓練データが比較的少ないため、事前学習とスケーリング手法の確立が十分ではありません。本論文では、オープンボキャブラリ物体検出への画像-テキストモデルの転移学習に向けた強力なレシピを提案します。最小限の変更を加えた標準的なビジョントランスフォーマー(Vision Transformer)アーキテクチャ、対照的な画像-テキスト事前学習、およびエンドツーエンドの検出微調整を使用しています。このセットアップのスケーリング特性に関する分析結果から、画像レベルでの事前学習とモデルサイズの増加が下流の検出タスクで一貫した改善をもたらすことが示されました。また、ゼロショットのテキスト条件付き物体検出とワンショットの画像条件付き物体検出において非常に高い性能を得るための適応戦略と正則化手法を提供しています。コードとモデルはGitHub上で公開されています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています