HyperAIHyperAI
vor 11 Tagen

Diversität und Tiefe in Per-Example-Router-Modellen

{Quoc V. Le, Prajit Ramachandran}
Diversität und Tiefe in Per-Example-Router-Modellen
Abstract

Routing-Modelle, eine Form der bedingten Berechnung, bei der Beispiele durch eine Teilmenge von Komponenten in einem größeren Netzwerk geleitet werden, haben in jüngsten Arbeiten vielversprechende Ergebnisse gezeigt. Überraschenderweise fehlen bisherige Routing-Modelle jedoch wichtigen Eigenschaften wie architektonischer Vielfalt und einer großen Anzahl von Routing-Entscheidungen. Sowohl architektonische Vielfalt als auch die Tiefe des Routings können die Darstellungskraft eines Routing-Netzwerks erhöhen. In dieser Arbeit beheben wir beide Defizite. Wir diskutieren die Bedeutung architektonischer Vielfalt in Routing-Modellen und erläutern die Trade-offs zwischen Kapazität und Optimierung bei steigender Routing-Tiefe. In unseren Experimenten stellen wir fest, dass die Hinzufügung architektonischer Vielfalt zu Routing-Modellen die Leistung erheblich verbessert und die Fehlerquote einer starken Baseline im Omniglot-Setup um 35 % senkt. Bei der Skalierung der Routing-Tiefe zeigen wir jedoch, dass moderne Routing-Techniken mit der Optimierung Schwierigkeiten haben. Abschließend diskutieren wir sowohl die positiven als auch die negativen Ergebnisse und weisen auf mögliche Richtungen für zukünftige Forschung hin.

Diversität und Tiefe in Per-Example-Router-Modellen | Neueste Forschungsarbeiten | HyperAI