2ヶ月前
多モーダル相互情報の最大化を通じた統合的な事前学習へ
Su, Weijie ; Zhu, Xizhou ; Tao, Chenxin ; Lu, Lewei ; Li, Bin ; Huang, Gao ; Qiao, Yu ; Wang, Xiaogang ; Zhou, Jie ; Dai, Jifeng

要約
大規模モデルの潜在能力を効果的に活用するために、異なるソースからの大量データを基にしたさまざまな事前学習戦略が提案されています。これらの戦略には、教師あり事前学習、弱教師あり事前学習、自己監督型事前学習が含まれます。複数の事前学習戦略と異なるモダリティ/ソースからのデータを組み合わせることで、大規模モデルの訓練が大幅に向上することが証明されています。しかし、現在の研究では多段階的事前学習システムが採用されており、その複雑なパイプラインは事前学習の不確実性と不安定性を増加させる可能性があります。したがって、これらの戦略を単一ステージで統合することが望ましいです。本論文では、まず一般的な多モーダル相互情報公式を提案し、これが統一された最適化目標として機能することを示します。さらに、既存のすべてのアプローチが我々のフレームワークの特殊ケースであることを説明します。この統一的な視点に基づいて、Maximizing Multi-modal Mutual Information Pre-training (M3I 事前学習) という名前の全機能統合型単一ステージ事前学習手法を提案します。我々の手法は、ImageNet分類、COCO物体検出、LVISロングテール物体検出、ADE20kセマンティックセグメンテーションなど、さまざまなビジョンベンチマークにおいて従来の事前学習手法よりも優れた性能を達成しています。特に、億レベルパラメータを持つ画像バックボーンモデルを成功裏に事前学習し、様々なベンチマークで最先端の性能を達成しました。コードは https://github.com/OpenGVLab/M3I-Pretraining で公開される予定です。