8ヶ月前

オブジェクト検出

マルチモーダル

マルチモーダル

コンピュータビジョン

Matthias Minderer* Alexey Gritsenko* Austin Stone Maxim Neumann Dirk Weissenborn Alexey Dosovitskiy Aravindh Mahendran Anurag Arnab Mostafa Dehghani Zhorran Shen

概要

単純なアーキテクチャと大規模事前学習の組み合わせは、画像分類において大幅な改善をもたらしました。物体検出に関しては、特に長尾分布やオープンボキャブラリ設定において、訓練データが比較的少ないため、事前学習とスケーリング手法の確立が十分ではありません。本論文では、オープンボキャブラリ物体検出への画像-テキストモデルの転移学習に向けた強力なレシピを提案します。最小限の変更を加えた標準的なビジョントランスフォーマー（Vision Transformer）アーキテクチャ、対照的な画像-テキスト事前学習、およびエンドツーエンドの検出微調整を使用しています。このセットアップのスケーリング特性に関する分析結果から、画像レベルでの事前学習とモデルサイズの増加が下流の検出タスクで一貫した改善をもたらすことが示されました。また、ゼロショットのテキスト条件付き物体検出とワンショットの画像条件付き物体検出において非常に高い性能を得るための適応戦略と正則化手法を提供しています。コードとモデルはGitHub上で公開されています。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

オブジェクト検出

マルチモーダル

マルチモーダル

コンピュータビジョン

Matthias Minderer* Alexey Gritsenko* Austin Stone Maxim Neumann Dirk Weissenborn Alexey Dosovitskiy Aravindh Mahendran Anurag Arnab Mostafa Dehghani Zhorran Shen

概要

単純なアーキテクチャと大規模事前学習の組み合わせは、画像分類において大幅な改善をもたらしました。物体検出に関しては、特に長尾分布やオープンボキャブラリ設定において、訓練データが比較的少ないため、事前学習とスケーリング手法の確立が十分ではありません。本論文では、オープンボキャブラリ物体検出への画像-テキストモデルの転移学習に向けた強力なレシピを提案します。最小限の変更を加えた標準的なビジョントランスフォーマー（Vision Transformer）アーキテクチャ、対照的な画像-テキスト事前学習、およびエンドツーエンドの検出微調整を使用しています。このセットアップのスケーリング特性に関する分析結果から、画像レベルでの事前学習とモデルサイズの増加が下流の検出タスクで一貫した改善をもたらすことが示されました。また、ゼロショットのテキスト条件付き物体検出とワンショットの画像条件付き物体検出において非常に高い性能を得るための適応戦略と正則化手法を提供しています。コードとモデルはGitHub上で公開されています。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています