HyperAIHyperAI

Command Palette

Search for a command to run...

Hiera: Ein hierarchischer Vision Transformer ohne zusätzliche Aufwendungen

Zusammenfassung

Moderne hierarchische Vision-Transformers haben mehrere visuelle Komponenten hinzugefügt, um die Leistung bei überwachter Klassifikation zu verbessern. Obwohl diese Komponenten effektive Genauigkeiten und ansprechende FLOP-Zahlen erzielen, führt die zusätzliche Komplexität tatsächlich dazu, dass diese Transformer langsamer sind als ihre einfachen ViT-Gegenstücke. In dieser Arbeit argumentieren wir, dass dieses zusätzliche Volumen nicht notwendig ist. Durch das Vortrainieren mit einer starken visuellen Vorabgabe (MAE) können wir alle Zusatzfunktionen von einem modernsten Mehrrahmen-Vision-Transformer entfernen, ohne an Genauigkeit zu verlieren. Im Verlauf dieses Prozesses haben wir Hiera entwickelt, einen extrem einfachen hierarchischen Vision-Transformer, der genauer als frühere Modelle ist und gleichzeitig erheblich schneller sowohl bei der Inferenz als auch während des Trainings arbeitet. Wir evaluieren Hiera anhand verschiedener Aufgaben für Bild- und Videokennzeichnung. Unser Code und unsere Modelle sind unter https://github.com/facebookresearch/hiera verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Hiera: Ein hierarchischer Vision Transformer ohne zusätzliche Aufwendungen | Paper | HyperAI