DARTS: Differenzierbare Architektursuche

Dieses Papier behandelt die Herausforderung der Skalierbarkeit von Architektursuchen durch eine differenzierbare Formulierung des Problems. Im Gegensatz zu herkömmlichen Ansätzen, bei denen Evolution oder Reinforcement Learning in einem diskreten und nicht-differenzierbaren Suchraum angewendet werden, basiert unsere Methode auf der kontinuierlichen Relaxation der Architekturrepräsentation. Dies ermöglicht eine effiziente Suche nach Architekturen unter Verwendung von Gradientenabstieg. Ausführliche Experimente auf CIFAR-10, ImageNet, Penn Treebank und WikiText-2 zeigen, dass unser Algorithmus hervorragend darin ist, hochleistungsfähige Faltungsarchitekturen für Bildklassifizierung und rekurrente Architekturen für Sprachmodelle zu entdecken, während er um Größenordnungen schneller als die besten nicht-differenzierbaren Techniken ist. Unsere Implementierung wurde öffentlich zugänglich gemacht, um weitere Forschungen zu effizienten Architektursuchalgorithmen zu fördern.