Command Palette
Search for a command to run...
NASViT: Neural Architecture Search für effiziente Vision Transformers mit gradientenkonfliktsensitiver Supernet-Training
NASViT: Neural Architecture Search für effiziente Vision Transformers mit gradientenkonfliktsensitiver Supernet-Training
Vikas Chandra Qiang Liu Yuandong Tian Zhicheng Yan Xinlei Chen Meng Li Dilin Wang Chengyue Gong
Zusammenfassung
Die Gestaltung genauer und effizienter Vision-Transformer (ViT) stellt eine hochbedeutsame, jedoch herausfordernde Aufgabe dar. Supernet-basierte One-Shot-Neural Architecture Search (NAS) ermöglicht eine schnelle Architekturoptimierung und hat bereits state-of-the-art (SOTA) Ergebnisse bei konvolutionellen neuronalen Netzen (CNNs) erzielt. Die direkte Anwendung der Supernet-basierten NAS zur Optimierung von ViTs führt jedoch zu schlechter Leistung – sogar schlechter als das Training einzelner ViTs. In dieser Arbeit beobachten wir, dass die schlechte Leistung auf einem Gradientenkonflikt zurückzuführen ist: Die Gradienten verschiedener Subnetze konkurrieren stärker mit denen des Supernetzes bei ViTs als bei CNNs, was zu einer frühen Sättigung während des Trainings und einer schlechteren Konvergenz führt. Um dieses Problem zu mildern, schlagen wir eine Reihe von Techniken vor, darunter einen Gradientenprojektionsalgorithmus, ein schaltbares Layer-Skalierungsdesign sowie eine vereinfachte Datenaugmentation- und Regularisierungstraining-Rezeptur. Diese vorgeschlagenen Techniken verbessern signifikant die Konvergenz und die Leistung aller Subnetze. Das von uns entdeckte hybride ViT-Modell-Portfolio, das als NASViT bezeichnet wird, erreicht eine Top-1-Accuracy von 78,2 % bis 81,8 % auf ImageNet bei 200 M bis 800 M FLOPs und übertrifft damit alle vorherigen Ansätze sowohl bei CNNs als auch bei ViTs, einschließlich AlphaNet und LeViT. Bei der Übertragung auf semantische Segmentierungsaufgaben übertrifft NASViT auch die vorherigen Backbone-Architekturen auf den Datensätzen Cityscapes und ADE20K, wobei jeweils 73,2 % und 37,9 % mIoU bei nur 5 G FLOPs erreicht werden.