Effiziente Sprachmodellierung mit sparse all-MLP

Alle-MLP-Architekturen haben zunehmendes Interesse als Alternative zu auf Aufmerksamkeit basierenden Modellen hervorgerufen. In der natürlichen Sprachverarbeitung (NLP) zeigte jüngste Forschung wie gMLP, dass alle-MLP-Modelle Transformers in der Sprachmodellierung erreichen können, jedoch weiterhin in nachgeschalteten Aufgaben hinterherhinken. In dieser Arbeit analysieren wir die Einschränkungen von MLPs hinsichtlich ihrer Ausdruckskraft und schlagen sparsam aktivierte MLPs mit Mixture-of-Experts (MoE) sowohl in den Merkmals- als auch in den Eingabedimensionen (Tokens) vor. Solche sparsamen alle-MLP-Modelle erhöhen signifikant die Modellkapazität und Ausdruckskraft, ohne die Berechnungskosten zu erhöhen. Wir lösen kritische Herausforderungen bei der Integration bedingter Berechnung durch zwei Routing-Strategien. Das vorgeschlagene sparsame alle-MLP-Modell verbessert die Sprachmodellierungsperplexität und erreicht im Vergleich sowohl zu Transformer-basierten MoEs (GShard, Switch Transformer, Base Layers und HASH Layers) als auch zu dichten Transformers und alle-MLPs eine bis zu 2-fache Steigerung der Trainingseffizienz. Schließlich evaluieren wir seine Leistung im zero-shot In-Context Learning auf sechs nachgeschalteten Aufgaben und stellen fest, dass es Transformer-basierte MoEs und dichte Transformers übertrifft.