HyperAIHyperAI

Command Palette

Search for a command to run...

NASViT: Neural Architecture Search für effiziente Vision Transformers mit gradientenkonfliktsensitiver Supernet-Training

Vikas Chandra Qiang Liu Yuandong Tian Zhicheng Yan Xinlei Chen Meng Li Dilin Wang Chengyue Gong

Zusammenfassung

Die Gestaltung genauer und effizienter Vision-Transformer (ViT) stellt eine hochbedeutsame, jedoch herausfordernde Aufgabe dar. Supernet-basierte One-Shot-Neural Architecture Search (NAS) ermöglicht eine schnelle Architekturoptimierung und hat bereits state-of-the-art (SOTA) Ergebnisse bei konvolutionellen neuronalen Netzen (CNNs) erzielt. Die direkte Anwendung der Supernet-basierten NAS zur Optimierung von ViTs führt jedoch zu schlechter Leistung – sogar schlechter als das Training einzelner ViTs. In dieser Arbeit beobachten wir, dass die schlechte Leistung auf einem Gradientenkonflikt zurückzuführen ist: Die Gradienten verschiedener Subnetze konkurrieren stärker mit denen des Supernetzes bei ViTs als bei CNNs, was zu einer frühen Sättigung während des Trainings und einer schlechteren Konvergenz führt. Um dieses Problem zu mildern, schlagen wir eine Reihe von Techniken vor, darunter einen Gradientenprojektionsalgorithmus, ein schaltbares Layer-Skalierungsdesign sowie eine vereinfachte Datenaugmentation- und Regularisierungstraining-Rezeptur. Diese vorgeschlagenen Techniken verbessern signifikant die Konvergenz und die Leistung aller Subnetze. Das von uns entdeckte hybride ViT-Modell-Portfolio, das als NASViT bezeichnet wird, erreicht eine Top-1-Accuracy von 78,2 % bis 81,8 % auf ImageNet bei 200 M bis 800 M FLOPs und übertrifft damit alle vorherigen Ansätze sowohl bei CNNs als auch bei ViTs, einschließlich AlphaNet und LeViT. Bei der Übertragung auf semantische Segmentierungsaufgaben übertrifft NASViT auch die vorherigen Backbone-Architekturen auf den Datensätzen Cityscapes und ADE20K, wobei jeweils 73,2 % und 37,9 % mIoU bei nur 5 G FLOPs erreicht werden.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp