Diversität und Tiefe in Per-Example-Router-Modellen

Routing-Modelle, eine Form der bedingten Berechnung, bei der Beispiele durch eine Teilmenge von Komponenten in einem größeren Netzwerk geleitet werden, haben in jüngsten Arbeiten vielversprechende Ergebnisse gezeigt. Überraschenderweise fehlen bisherige Routing-Modelle jedoch wichtigen Eigenschaften wie architektonischer Vielfalt und einer großen Anzahl von Routing-Entscheidungen. Sowohl architektonische Vielfalt als auch die Tiefe des Routings können die Darstellungskraft eines Routing-Netzwerks erhöhen. In dieser Arbeit beheben wir beide Defizite. Wir diskutieren die Bedeutung architektonischer Vielfalt in Routing-Modellen und erläutern die Trade-offs zwischen Kapazität und Optimierung bei steigender Routing-Tiefe. In unseren Experimenten stellen wir fest, dass die Hinzufügung architektonischer Vielfalt zu Routing-Modellen die Leistung erheblich verbessert und die Fehlerquote einer starken Baseline im Omniglot-Setup um 35 % senkt. Bei der Skalierung der Routing-Tiefe zeigen wir jedoch, dass moderne Routing-Techniken mit der Optimierung Schwierigkeiten haben. Abschließend diskutieren wir sowohl die positiven als auch die negativen Ergebnisse und weisen auf mögliche Richtungen für zukünftige Forschung hin.