vor einem Monat

PathNet: Evolution leitet Gradientenabstieg in Super-Neuralen Netzen ein

Chrisantha Fernando; Dylan Banarse; Charles Blundell; Yori Zwols; David Ha; Andrei A. Rusu; Alexander Pritzel; Daan Wierstra

Details der Forschungsarbeit anzeigen

PathNet: Evolution leitet Gradientenabstieg in Super-Neuralen Netzen ein

Abstract

Für künstliche allgemeine Intelligenz (KAI) wäre es effizient, wenn mehrere Benutzer dasselbe große neuronales Netzwerk trainieren könnten, wodurch eine Wiederverwendung von Parametern ermöglicht wird, ohne dass es zu katastrophalischem Vergessen kommt. PathNet ist ein erster Schritt in diese Richtung. Es handelt sich dabei um einen neuronalen Netzwerkalgorithmus, der Agenten im Netzwerk einbetten verwendet, deren Aufgabe es ist, herauszufinden, welche Teile des Netzwerks für neue Aufgaben wiederverwendet werden können. Diese Agenten sind Pfade (Sichten) durch das Netzwerk, die den Teil der Parameter bestimmen, die vom Vorwärts- und Rückwärtsdurchgang des Backpropagation-Algorithmus verwendet und aktualisiert werden. Während des Lernprozesses wird ein Turnierselektionsgenetischer Algorithmus verwendet, um Pfade durch das neuronale Netzwerk zur Replikation und Mutation auszuwählen. Die Fitness eines Pfades ist seine Leistung gemäß einer Kostenfunktion gemessen. Wir zeigen erfolgreiches Transferlernen; die Fixierung der Parameter entlang eines auf Aufgabe A gelernten Pfades und die erneute Evolution einer neuen Population von Pfaden für Aufgabe B ermöglicht es, dass Aufgabe B schneller gelernt wird als bei einem Neustart oder nach Feinabstimmung. Pfade, die auf Aufgabe B evolviert sind, verwenden Teile des auf Aufgabe A evolvierten optimalen Pfades. Positives Transfer wurde für binäre MNIST-, CIFAR- und SVHN-supervisierte Klassifikationsaufgaben sowie eine Reihe von Atari- und Labyrinth-Reinforcement-Learning-Aufgaben demonstriert, was darauf hindeutet, dass PathNets eine allgemeine Anwendbarkeit beim Training neuronaler Netze haben. Schließlich verbessert PathNet auch die Robustheit gegenüber Hyperparameter-Wahlen eines parallelen asynchronen Reinforcement-Learning-Algorithmus (A3C) erheblich.