MoMaの建築

MoMa アーキテクチャ (正式名: Mixture of Modality-Aware Experts) は、2024 年に Meta によって論文「MoMa: モダリティを意識した専門家の混合による効率的な初期融合事前トレーニング「これは、混合モダリティと初期融合言語モデルを事前トレーニングするために設計された、新しいモダリティ認識ハイブリッド エキスパート (MoE) アーキテクチャです。」で提案されています。

MoMa は、エキスパート モジュールをモダリティ固有のグループに分割することにより、画像とテキストの任意のシーケンスを処理します。これらのグループは、各グループ内で学習したルートを使用して意味論的な情報に基づいた適応性を維持しながら、指定されたトークンの処理に特化しています。結果は、このモダリティ固有のパラメーター割り当てにより、事前トレーニングの効率が大幅に向上することを示しています。 4 人のテキスト エキスパートと 4 人の画像エキスパートを備えた MoMa 1.4B モデルは、1 兆のラベル トレーニング予算を使用した計算上同等のベースラインと比較して、3.7 倍の FLOP 節約を達成しました。これには、2.6 倍のテキスト節約時間が含まれ、画像処理は 5.2 倍節約されます (測定によると)。トレーニング前の損失。これは、8 人の混合モダリティ エキスパートを含む標準のエキスパート選択 MoE よりも優れており、全体で 3 倍の FLOP 節約(テキストで 3 倍、画像で 2.8 倍)を達成します。 MoMa とディープ ミキシング (MoD) を組み合わせると、トレーニング前の FLOP 節約が全体で 4.2 倍 (テキスト: 3.4 倍、画像: 5.3 倍) にさらに削減されますが、この組み合わせでは、ルーターの場合と同様に、因果推論のパフォーマンスが低下します。性的感度が高まります。これらの結果は、MoMa が混合モードの初期融合言語モデルの事前トレーニングの効率を大幅に向上させ、よりリソースを節約した強力なマルチモーダル AI システムへの道を開く可能性があることを示しています。