vor 6 Monaten

Zusammenfassung

Die jüngste Kombination von Transformer- und Faltungsarchitekturen hat kontinuierliche Verbesserungen in Genauigkeit und Effizienz der Modelle ermöglicht. In dieser Arbeit stellen wir FastViT vor, eine hybride Vision-Transformer-Architektur, die die derzeit beste Balance zwischen Latenz und Genauigkeit erreicht. Hierzu führen wir einen neuen Token-Mixing-Operator, RepMixer, als Baustein von FastViT ein, der strukturelle Reparametrisierung nutzt, um die Speicherzugriffs-Kosten zu senken, indem er Sprungverbindungen im Netzwerk entfernt. Zudem wenden wir Overparametrisierung während des Trainings und große Faltungs-Kerne an, um die Genauigkeit zu steigern, und zeigen empirisch, dass diese Entscheidungen nur geringe Auswirkungen auf die Latenz haben. Wir zeigen, dass unser Modell auf einem mobilen Gerät bei gleicher Genauigkeit auf dem ImageNet-Datensatz 3,5-mal schneller ist als CMT, eine neuere state-of-the-art-hybride Transformer-Architektur, 4,9-mal schneller als EfficientNet und 1,9-mal schneller als ConvNeXt. Bei vergleichbarer Latenz erreicht unser Modell eine um 4,2 % höhere Top-1-Genauigkeit auf ImageNet im Vergleich zu MobileOne. Unser Modell übertrifft konkurrierende Architekturen konsistent bei mehreren Aufgaben – Bildklassifikation, Objektdetektion, Segmentierung und 3D-Mesh-Regression – und zeigt dabei eine signifikante Verbesserung der Latenz sowohl auf mobilen Geräten als auch auf Desktop-GPUs. Darüber hinaus ist unser Modell äußerst robust gegenüber Ausreißern und Störungen, wobei es gegenüber konkurrierenden robusten Modellen überlegen ist. Der Quellcode und die Modelle sind unter https://github.com/apple/ml-fastvit verfügbar.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Transformer

Faltungsneuronales Netzwerk

Pavan Kumar Anasosalu Vasu James Gabriel Jeff Zhu Oncel Tuzel Anurag Ranjan

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Transformer

Faltungsneuronales Netzwerk

Pavan Kumar Anasosalu Vasu James Gabriel Jeff Zhu Oncel Tuzel Anurag Ranjan

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

FastViT: Ein schneller hybrider Vision Transformer unter Verwendung struktureller Reparameterisierung | Paper | HyperAI

Command Palette

FastViT: Ein schneller hybrider Vision Transformer unter Verwendung struktureller Reparameterisierung

Pavan Kumar Anasosalu Vasu James Gabriel Jeff Zhu Oncel Tuzel Anurag Ranjan

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

FastViT: Ein schneller hybrider Vision Transformer unter Verwendung struktureller Reparameterisierung

Pavan Kumar Anasosalu Vasu James Gabriel Jeff Zhu Oncel Tuzel Anurag Ranjan

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

FastViT: Ein schneller hybrider Vision Transformer unter Verwendung struktureller Reparameterisierung

Pavan Kumar Anasosalu Vasu James Gabriel Jeff Zhu Oncel Tuzel Anurag Ranjan

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters