HyperAI

MoMa-Architektur

Das MoMa-Framework (vollständiger Name: Mixture of Modality-Aware Experts) wurde von Meta in dem Artikel „MoMa: Effizientes Early-Fusion-Pre-Training mit einer Mischung aus modalitätsbewussten Experten" schlug eine neue modalitätsbewusste Mischung von Expertenarchitekturen (MoE) vor, die für das Vortraining gemischter Modalitäten und frühe Fusionssprachmodelle entwickelt wurde.

MoMa verarbeitet beliebige Bild- und Textsequenzen, indem es Expertenmodule in modalitätsspezifische Gruppen aufteilt. Diese Gruppen sind auf die Verarbeitung bestimmter Tags spezialisiert, während innerhalb jeder Gruppe erlerntes Routing eingesetzt wird, um die semantisch fundierte Anpassungsfähigkeit aufrechtzuerhalten. Unsere Ergebnisse zeigen, dass die Effizienz des Vortrainings durch diese modalitätsspezifische Parameterzuweisung deutlich verbessert wird. Bei einem gekennzeichneten Trainingsbudget von 1 Billion erreicht das MoMa 1.4B-Modell mit 4 Textexperten und 4 Bildexperten FLOP-Einsparungen von insgesamt 3,7x, 2,6x für Text und 5,2x für Bildverarbeitung, verglichen mit einer rechenäquivalenten dichten Basislinie, gemessen am Verlust vor dem Training. Dies übertrifft die standardmäßige Expertenauswahl MoE mit 8 Experten für gemischte Modalitäten, wodurch insgesamt eine dreifache FLOP-Einsparung erreicht wird (3x für Text und 2,8x für Bilder). Durch die Kombination von MoMa mit Mixed-by-Deep (MoD) werden die FLOPs vor dem Training insgesamt um das 4,2-Fache (Text: 3,4-Fach, Bild: 5,3-Fach) eingespart. Allerdings verschlechtert diese Kombination die Leistung der kausalen Inferenz aufgrund der erhöhten Empfindlichkeit gegenüber der Routergenauigkeit. Diese Ergebnisse deuten darauf hin, dass MoMa das Potenzial hat, die Effizienz des Vortrainings von Mixed-Mode-Sprachmodellen im Frühstadium der Fusion deutlich zu verbessern und so den Weg für ressourceneffizientere und leistungsfähigere multimodale KI-Systeme zu ebnen.