勾配降下法の交互使用とエキスパートの混合モデルを用いた統合マルチモーダル認識

我々は統合マルチモーダル認識(Integrated Multimodal Perception: IMP)を提案します。これは単純かつスケーラブルなマルチモーダル・マルチタスクの学習およびモデリング手法です。IMPは、画像、動画、テキスト、音声などのマルチモーダル入力を最小限のモーダル特異的なコンポーネントで単一のトランスフォーマーエンコーダーに統合します。IMPは、効率的なモデルとタスクのスケーリングのために、交替勾配降下法(Alternating Gradient Descent: AGD)とエキスパートの混合(Mixture-of-Experts: MoE)を組み合わせた新しい設計を利用しています。我々は広範な実証研究を行い、以下の重要な洞察を得ました:1) 多様なモーダル、損失関数、およびタスクに対して異なる入力解像度で交互に勾配降下法の更新を行うことで、モデルが効率的に改善されます。2) 単一のモーダル非依存エンコーダー上でMoEによる疎化が大幅に性能を向上させ、モーダル特異的なエンコーダーや追加の融合層を使用する密なモデルを上回り、モーダル間の競合を大幅に軽減します。IMPはビデオ分類、画像分類、画像-テキスト検索、ビデオ-テキスト検索など幅広いダウンストリームタスクにおいて競争力のある性能を達成しています。特に注目に値するのは、ビデオタスクに焦点を当てた疎なIMP-MoE-L変種モデルで、ゼロショットビデオ分類において新たな最先端性能を達成したことです。具体的にはKinetics-400で77.0%、Kinetics-600で76.8%、Kinetics-700で68.3%という精度を達成し、それぞれ前の最先端性能に対して+5%、+6.7%、+5.8%向上しました。これにより総合的な学習計算コストはそれらの15%しか使用せずに大幅な改善が実現されました。