2ヶ月前

大規模画像および動画の一般オブジェクト基礎モデル

Wu, Junfeng ; Jiang, Yi ; Liu, Qihao ; Yuan, Zehuan ; Bai, Xiang ; Bai, Song
大規模画像および動画の一般オブジェクト基礎モデル
要約

本研究で、画像や動画中の物体を位置づけおよび識別するためのオブジェクトレベルの基礎モデルGLEEを紹介します。統一されたフレームワークを通じて、GLEEは検出、セグメンテーション、追跡、グラウンド化(grounding)、および任意の物体の識別という様々な物体認識タスクをオープンワールドシナリオで達成します。一貫した学習戦略を採用することで、GLEEは異なる監督レベルを持つ多様なデータソースから知識を獲得し、一般的な物体表現を形成し、新しいデータやタスクへのゼロショット転移において優れた性能を発揮します。具体的には、画像エンコーダー、テキストエンコーダー、およびビジュアルプロンプターを使用してマルチモーダル入力を処理し、様々なオブジェクト中心の下流タスクを同時に解決しながら最先端の性能を維持します。500万枚以上の多様なベンチマークからの画像での広範な訓練を通じて、GLEEは著しい汎用性と改善された一般化性能を示しており、タスク固有の適応なしに効率的に下流タスクに対処できます。大規模な自動ラベリングデータを統合することにより、さらにそのゼロショット一般化能力が向上しています。また、GLEEは大規模言語モデル(Large Language Models)に組み込むことができ、マルチモーダルタスクに向けた普遍的なオブジェクトレベル情報の提供に基礎モデルとして機能します。我々はこの方法の汎用性と普遍性が効率的な視覚基礎モデルの開発における重要な一歩となることを期待しています。モデルとコードは https://glee-vision.github.io で公開されます。