Skalierung von Vision mit Sparse Mixture of Experts

Sparsely-gated Mixture-of-Experts-Netzwerke (MoEs) haben in der Verarbeitung natürlicher Sprache eine hervorragende Skalierbarkeit gezeigt. In der Computer Vision sind jedoch fast alle leistungsstarken Netzwerke „dicht“, d. h., jeder Eingabewert wird von allen Parametern verarbeitet. Wir stellen ein Vision-MoE (V-MoE), eine sparsere Variante des Vision-Transformers, vor, die skalierbar ist und mit den größten dichten Netzwerken konkurrieren kann. Bei der Anwendung auf die Bilderkennung erreicht V-MoE die Leistungszahlen state-of-the-art-Netzwerke, benötigt dabei jedoch bis zu nur die Hälfte der Rechenleistung im Inference-Modus. Darüber hinaus schlagen wir eine Erweiterung des Routing-Algorithmus vor, die es ermöglicht, Teilmengen jedes Eingabebildes über die gesamte Batch hinweg zu priorisieren, was adaptive, bildspezifische Berechnungsressourcen ermöglicht. Dadurch kann V-MoE nahtlos zwischen Leistung und Rechenaufwand während der Testphase abwägen. Schließlich demonstrieren wir das Skalierungspotenzial von V-MoE und trainieren ein Modell mit 15 Milliarden Parametern, das eine Genauigkeit von 90,35 % auf ImageNet erreicht.