Command Palette
Search for a command to run...
簡易なオープンボキャブラリオブジェクト検出におけるビジョントランスフォーマーの利用
簡易なオープンボキャブラリオブジェクト検出におけるビジョントランスフォーマーの利用
概要
単純なアーキテクチャと大規模事前学習の組み合わせは、画像分類において大幅な改善をもたらしました。物体検出に関しては、特に長尾分布やオープンボキャブラリ設定において、訓練データが比較的少ないため、事前学習とスケーリング手法の確立が十分ではありません。本論文では、オープンボキャブラリ物体検出への画像-テキストモデルの転移学習に向けた強力なレシピを提案します。最小限の変更を加えた標準的なビジョントランスフォーマー(Vision Transformer)アーキテクチャ、対照的な画像-テキスト事前学習、およびエンドツーエンドの検出微調整を使用しています。このセットアップのスケーリング特性に関する分析結果から、画像レベルでの事前学習とモデルサイズの増加が下流の検出タスクで一貫した改善をもたらすことが示されました。また、ゼロショットのテキスト条件付き物体検出とワンショットの画像条件付き物体検出において非常に高い性能を得るための適応戦略と正則化手法を提供しています。コードとモデルはGitHub上で公開されています。