HyperAIHyperAI
vor 8 Tagen

FastViT: Ein schneller hybrider Vision Transformer unter Verwendung struktureller Reparameterisierung

Pavan Kumar Anasosalu Vasu, James Gabriel, Jeff Zhu, Oncel Tuzel, Anurag Ranjan
FastViT: Ein schneller hybrider Vision Transformer unter Verwendung struktureller Reparameterisierung
Abstract

Die jüngste Kombination von Transformer- und Faltungsarchitekturen hat kontinuierliche Verbesserungen in Genauigkeit und Effizienz der Modelle ermöglicht. In dieser Arbeit stellen wir FastViT vor, eine hybride Vision-Transformer-Architektur, die die derzeit beste Balance zwischen Latenz und Genauigkeit erreicht. Hierzu führen wir einen neuen Token-Mixing-Operator, RepMixer, als Baustein von FastViT ein, der strukturelle Reparametrisierung nutzt, um die Speicherzugriffs-Kosten zu senken, indem er Sprungverbindungen im Netzwerk entfernt. Zudem wenden wir Overparametrisierung während des Trainings und große Faltungs-Kerne an, um die Genauigkeit zu steigern, und zeigen empirisch, dass diese Entscheidungen nur geringe Auswirkungen auf die Latenz haben. Wir zeigen, dass unser Modell auf einem mobilen Gerät bei gleicher Genauigkeit auf dem ImageNet-Datensatz 3,5-mal schneller ist als CMT, eine neuere state-of-the-art-hybride Transformer-Architektur, 4,9-mal schneller als EfficientNet und 1,9-mal schneller als ConvNeXt. Bei vergleichbarer Latenz erreicht unser Modell eine um 4,2 % höhere Top-1-Genauigkeit auf ImageNet im Vergleich zu MobileOne. Unser Modell übertrifft konkurrierende Architekturen konsistent bei mehreren Aufgaben – Bildklassifikation, Objektdetektion, Segmentierung und 3D-Mesh-Regression – und zeigt dabei eine signifikante Verbesserung der Latenz sowohl auf mobilen Geräten als auch auf Desktop-GPUs. Darüber hinaus ist unser Modell äußerst robust gegenüber Ausreißern und Störungen, wobei es gegenüber konkurrierenden robusten Modellen überlegen ist. Der Quellcode und die Modelle sind unter https://github.com/apple/ml-fastvit verfügbar.

FastViT: Ein schneller hybrider Vision Transformer unter Verwendung struktureller Reparameterisierung | Neueste Forschungsarbeiten | HyperAI