HyperAIHyperAI

Command Palette

Search for a command to run...

Skalierung von Vision mit Sparse Mixture of Experts

Carlos Riquelme Joan Puigcerver Basil Mustafa Maxim Neumann Rodolphe Jenatton André Susano Pinto Daniel Keysers Neil Houlsby

Zusammenfassung

Sparsely-gated Mixture-of-Experts-Netzwerke (MoEs) haben in der Verarbeitung natürlicher Sprache eine hervorragende Skalierbarkeit gezeigt. In der Computer Vision sind jedoch fast alle leistungsstarken Netzwerke „dicht“, d. h., jeder Eingabewert wird von allen Parametern verarbeitet. Wir stellen ein Vision-MoE (V-MoE), eine sparsere Variante des Vision-Transformers, vor, die skalierbar ist und mit den größten dichten Netzwerken konkurrieren kann. Bei der Anwendung auf die Bilderkennung erreicht V-MoE die Leistungszahlen state-of-the-art-Netzwerke, benötigt dabei jedoch bis zu nur die Hälfte der Rechenleistung im Inference-Modus. Darüber hinaus schlagen wir eine Erweiterung des Routing-Algorithmus vor, die es ermöglicht, Teilmengen jedes Eingabebildes über die gesamte Batch hinweg zu priorisieren, was adaptive, bildspezifische Berechnungsressourcen ermöglicht. Dadurch kann V-MoE nahtlos zwischen Leistung und Rechenaufwand während der Testphase abwägen. Schließlich demonstrieren wir das Skalierungspotenzial von V-MoE und trainieren ein Modell mit 15 Milliarden Parametern, das eine Genauigkeit von 90,35 % auf ImageNet erreicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp