Off-Policy Reinforcement Learning für effiziente und effektive GAN-Architektursuche

In diesem Paper stellen wir eine neue, auf Verstärkendem Lernen (Reinforcement Learning, RL) basierende Methode für das neuronale Architektursuchverfahren (Neural Architecture Search, NAS) vor, die effektiv und effizient Architekturen für generative adversarische Netzwerke (Generative Adversarial Networks, GANs) sucht. Der zentrale Ansatz besteht darin, das Problem der GAN-Architektursuche als ein Markov-Entscheidungsprozess (Markov Decision Process, MDP) zu formulieren, um eine glattere Probenahme von Architekturen zu ermöglichen und somit einen effektiveren, auf RL basierenden Suchalgorithmus zu realisieren, der auf die potenziell globale optimale Architektur abzielt. Zur Verbesserung der Effizienz nutzen wir einen off-policy GAN-Architektursuchalgorithmus, der die durch frühere Politiken generierten Proben effizient nutzt. Evaluierungen auf zwei etablierten Benchmark-Datensätzen (nämlich CIFAR-10 und STL-10) zeigen, dass die vorgeschlagene Methode in der Lage ist, hochkompetitive Architekturen zu finden, die allgemein bessere Ergebnisse bei der Bildgenerierung liefern, und dabei einen erheblich reduzierten Rechenaufwand erbringt: lediglich 7 GPU-Stunden. Unser Code ist unter https://github.com/Yuantian013/E2GAN verfügbar.