HyperAIHyperAI

Command Palette

Search for a command to run...

FastViT: Ein schneller hybrider Vision Transformer unter Verwendung struktureller Reparameterisierung

Pavan Kumar Anasosalu Vasu James Gabriel Jeff Zhu Oncel Tuzel Anurag Ranjan

Zusammenfassung

Die jüngste Kombination von Transformer- und Faltungsarchitekturen hat kontinuierliche Verbesserungen in Genauigkeit und Effizienz der Modelle ermöglicht. In dieser Arbeit stellen wir FastViT vor, eine hybride Vision-Transformer-Architektur, die die derzeit beste Balance zwischen Latenz und Genauigkeit erreicht. Hierzu führen wir einen neuen Token-Mixing-Operator, RepMixer, als Baustein von FastViT ein, der strukturelle Reparametrisierung nutzt, um die Speicherzugriffs-Kosten zu senken, indem er Sprungverbindungen im Netzwerk entfernt. Zudem wenden wir Overparametrisierung während des Trainings und große Faltungs-Kerne an, um die Genauigkeit zu steigern, und zeigen empirisch, dass diese Entscheidungen nur geringe Auswirkungen auf die Latenz haben. Wir zeigen, dass unser Modell auf einem mobilen Gerät bei gleicher Genauigkeit auf dem ImageNet-Datensatz 3,5-mal schneller ist als CMT, eine neuere state-of-the-art-hybride Transformer-Architektur, 4,9-mal schneller als EfficientNet und 1,9-mal schneller als ConvNeXt. Bei vergleichbarer Latenz erreicht unser Modell eine um 4,2 % höhere Top-1-Genauigkeit auf ImageNet im Vergleich zu MobileOne. Unser Modell übertrifft konkurrierende Architekturen konsistent bei mehreren Aufgaben – Bildklassifikation, Objektdetektion, Segmentierung und 3D-Mesh-Regression – und zeigt dabei eine signifikante Verbesserung der Latenz sowohl auf mobilen Geräten als auch auf Desktop-GPUs. Darüber hinaus ist unser Modell äußerst robust gegenüber Ausreißern und Störungen, wobei es gegenüber konkurrierenden robusten Modellen überlegen ist. Der Quellcode und die Modelle sind unter https://github.com/apple/ml-fastvit verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp