2ヶ月前

フローレンス:コンピュータビジョンの新しい基礎モデル

Lu Yuan; Dongdong Chen; Yi-Ling Chen; Noel Codella; Xiyang Dai; Jianfeng Gao; Houdong Hu; Xuedong Huang; Boxin Li; Chunyuan Li; Ce Liu; Mengchen Liu; Zicheng Liu; Yumao Lu; Yu Shi; Lijuan Wang; Jianfeng Wang; Bin Xiao; Zhen Xiao; Jianwei Yang; Michael Zeng; Luowei Zhou; Pengchuan Zhang
フローレンス:コンピュータビジョンの新しい基礎モデル
要約

多様で開放的な世界の自動視覚理解には、特定のタスクに最小限のカスタマイズで対応できる高性能なコンピュータビジョンモデルが必要です。これは人間の視覚と同様です。コンピュータビジョン基盤モデルは、多様な大規模データセットで訓練され、幅広い下流タスクに適応できるため、実世界のコンピュータビジョンアプリケーションを解決する上で重要な役割を果たします。既存の視覚基盤モデル(CLIP、ALIGN、Wu Dao 2.0)は主に画像とテキスト表現をクロスモーダル共有表現にマッピングすることに焦点を当てていますが、私たちは新たなコンピュータビジョン基盤モデル「Florence」を導入し、表現を粗い(シーン)から細かい(物体)、静止画(画像)から動的(動画)、RGBから複数のモーダリティ(キャプション、深度)へと拡張します。ウェブスケールの画像-テキストデータから普遍的な視覚言語表現を取り入れることにより、Florenceモデルは分類、検索、物体検出、VQA(Visual Question Answering)、画像キャプション生成、動画検索、行動認識などさまざまなコンピュータビジョンタスクへの容易な適応が可能となります。さらに、Florenceは完全サンプリングファインチューニング、線形プロービング、少ショット転移学習、および新規画像や物体に対するゼロショット転移学習など多くの種類の転移学習において優れた性能を示しています。これらの特性はすべて、一般目的の視覚タスクに対応するための視覚基盤モデルにとって不可欠です。Florenceは44もの代表的なベンチマークの大半で新しい最先端結果を達成しており、例えばImageNet-1Kでのゼロショット分類ではトップ1精度が83.74%、トップ5精度が97.18%となっています。またCOCOファインチューニングでは62.4 mAP (mean Average Precision) を達成し、VQAでは80.36% の精度を記録しています。さらにKinetics-600では87.8% の精度を達成しています。

フローレンス:コンピュータビジョンの新しい基礎モデル | 最新論文 | HyperAI超神経