vor 8 Monaten

Zusammenfassung

Die Gestaltung genauer und effizienter Vision-Transformer (ViT) stellt eine hochbedeutsame, jedoch herausfordernde Aufgabe dar. Supernet-basierte One-Shot-Neural Architecture Search (NAS) ermöglicht eine schnelle Architekturoptimierung und hat bereits state-of-the-art (SOTA) Ergebnisse bei konvolutionellen neuronalen Netzen (CNNs) erzielt. Die direkte Anwendung der Supernet-basierten NAS zur Optimierung von ViTs führt jedoch zu schlechter Leistung – sogar schlechter als das Training einzelner ViTs. In dieser Arbeit beobachten wir, dass die schlechte Leistung auf einem Gradientenkonflikt zurückzuführen ist: Die Gradienten verschiedener Subnetze konkurrieren stärker mit denen des Supernetzes bei ViTs als bei CNNs, was zu einer frühen Sättigung während des Trainings und einer schlechteren Konvergenz führt. Um dieses Problem zu mildern, schlagen wir eine Reihe von Techniken vor, darunter einen Gradientenprojektionsalgorithmus, ein schaltbares Layer-Skalierungsdesign sowie eine vereinfachte Datenaugmentation- und Regularisierungstraining-Rezeptur. Diese vorgeschlagenen Techniken verbessern signifikant die Konvergenz und die Leistung aller Subnetze. Das von uns entdeckte hybride ViT-Modell-Portfolio, das als NASViT bezeichnet wird, erreicht eine Top-1-Accuracy von 78,2 % bis 81,8 % auf ImageNet bei 200 M bis 800 M FLOPs und übertrifft damit alle vorherigen Ansätze sowohl bei CNNs als auch bei ViTs, einschließlich AlphaNet und LeViT. Bei der Übertragung auf semantische Segmentierungsaufgaben übertrifft NASViT auch die vorherigen Backbone-Architekturen auf den Datensätzen Cityscapes und ADE20K, wobei jeweils 73,2 % und 37,9 % mIoU bei nur 5 G FLOPs erreicht werden.

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Transformer

Computer Vision

Semantische Segmentierung

Vikas Chandra Qiang Liu Yuandong Tian Zhicheng Yan Xinlei Chen Meng Li Dilin Wang Chengyue Gong

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Transformer

Computer Vision

Semantische Segmentierung

Vikas Chandra Qiang Liu Yuandong Tian Zhicheng Yan Xinlei Chen Meng Li Dilin Wang Chengyue Gong

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

NASViT: Neural Architecture Search für effiziente Vision Transformers mit gradientenkonfliktsensitiver Supernet-Training

Vikas Chandra Qiang Liu Yuandong Tian Zhicheng Yan Xinlei Chen Meng Li Dilin Wang Chengyue Gong

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

NASViT: Neural Architecture Search für effiziente Vision Transformers mit gradientenkonfliktsensitiver Supernet-Training

Vikas Chandra Qiang Liu Yuandong Tian Zhicheng Yan Xinlei Chen Meng Li Dilin Wang Chengyue Gong

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

NASViT: Neural Architecture Search für effiziente Vision Transformers mit gradientenkonfliktsensitiver Supernet-Training

Vikas Chandra Qiang Liu Yuandong Tian Zhicheng Yan Xinlei Chen Meng Li Dilin Wang Chengyue Gong

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters