vor 18 Tagen

Neural Architecture Search auf ImageNet in vier GPU-Stunden: Ein theoretisch motivierter Ansatz

Wuyang Chen, Xinyu Gong, Zhangyang Wang

Abstract

Neural Architecture Search (NAS) wird explosionsartig erforscht, um die Entdeckung hochleistungsfähiger neuronaler Netze zu automatisieren. Aktuelle Ansätze erfordern jedoch ein aufwändiges Training eines Supernetzes oder eine intensive Architektur-Evaluation, was zu erheblichem Ressourcenverbrauch führt und oft Suchverzerrungen verursacht, bedingt durch abgebrochene Trainingsprozesse oder Näherungsverfahren. Kann man die besten neuronalen Architekturen auswählen, ohne irgendein Training durchzuführen, und dabei einen erheblichen Teil der Suchkosten eliminieren? Wir geben eine positive Antwort, indem wir einen neuartigen Rahmen namens training-free Neural Architecture Search (TE-NAS) vorstellen. TE-NAS bewertet Architekturen, indem es das Spektrum des Neural Tangent Kernel (NTK) und die Anzahl linearer Regionen im Eingaberaum analysiert. Beide Maße basieren auf jüngsten theoretischen Fortschritten in tiefen Netzwerken und können ohne jedes Training und ohne Verwendung von Labels berechnet werden. Wir zeigen, dass: (1) diese beiden Messgrößen die Trainierbarkeit und Ausdruckskraft eines neuronalen Netzwerks widerspiegeln; (2) sie eine starke Korrelation mit der Testgenauigkeit des Netzwerks aufweisen. Darüber hinaus entwerfen wir eine auf Pruning basierende NAS-Methode, um während der Suche ein flexibleres und überlegeneres Gleichgewicht zwischen Trainierbarkeit und Ausdruckskraft zu erreichen. In den Suchräumen NAS-Bench-201 und DARTS führt TE-NAS eine hochqualitative Suche durch, verbraucht jedoch nur 0,5 bzw. 4 GPU-Stunden auf einer einzigen 1080Ti-GPU für CIFAR-10 und ImageNet. Wir hoffen, dass unsere Arbeit weitere Bemühungen anregt, die theoretischen Erkenntnisse über tiefe Netzwerke mit praktischen Anwendungen in der realen NAS-Forschung zu verbinden. Der Quellcode ist verfügbar unter: https://github.com/VITA-Group/TENAS.