vor einem Monat

Kontinuierliches Lernen mit Hypernetzen

Johannes von Oswald; Christian Henning; Benjamin F. Grewe; João Sacramento

Abstract

Künstliche neuronale Netze leiden an katastrophalischem Vergessen, wenn sie sequenziell auf mehreren Aufgaben trainiert werden. Um dieses Problem zu überwinden, stellen wir einen neuen Ansatz vor, der auf taskbedingten Hypernetzen basiert, d.h. Netzen, die die Gewichte eines Zielmodells basierend auf der Aufgabenidentität generieren. Das kontinuierliche Lernen (CL) ist für diese Klasse von Modellen dank einer einfachen Schlusseigenschaft weniger schwierig: Anstatt die Eingabe-Ausgabe-Beziehungen aller bisher gesehenen Daten zu rekonstruieren, müssen taskbedingte Hypernetze nur spezifische Gewichtsrealisierungen für Aufgaben wiederholen, die mit einem einfachen Regularisierer im Gedächtnis gehalten werden können. Neben der Erreichung von Stand-of-the-Art-Leistungen bei standardmäßigen CL-Benchmarks zeigen zusätzliche Experimente mit langen Aufgabensequenzen, dass taskbedingte Hypernetze eine sehr große Kapazität zur Beibehaltung früherer Erinnerungen aufweisen. Bemerkenswerterweise werden solche langen Gedächtnisdauern in einem kompressiven Regime erreicht, wenn die Anzahl der trainierbaren Hypernetzgewichte vergleichbar oder kleiner als die Größe des Zielnetzes ist. Wir geben Einblicke in die Struktur niedrigdimensionaler Task-Embedding-Räume (den Eingaberaum des Hypernetzes) und zeigen, dass taskbedingte Hypernetze Transferlernen demonstrieren. Schließlich wird das Vorwärtsinformationsübertragen durch empirische Ergebnisse bei einem anspruchsvollen CL-Benchmark basierend auf den Bild-Datensätzen CIFAR-10/100 weiter gestützt.