HyperAIHyperAI

Command Palette

Search for a command to run...

Multiscale Vision Transformers

Haoqi Fan Bo Xiong Karttikeya Mangalam Yanghao Li Zhicheng Yan Jitendra Malik Christoph Feichtenhofer

Zusammenfassung

Wir stellen Multiscale Vision Transformers (MViT) für die Video- und Bilderkennung vor, indem wir die grundlegende Idee hierarchischer multiskaliger Merkmalsstrukturen mit Transformer-Modellen verbinden. Multiscale-Transformer weisen mehrere Stufen mit unterschiedlichen Kanal- und Auflösungsgraden auf. Beginnend mit der Eingabegröße und einer geringen Kanalanzahl erweitern die Stufen hierarchisch die Kanalkapazität, während gleichzeitig die räumliche Auflösung reduziert wird. Dadurch entsteht eine multiskalige Merkmalspyramide, bei der die frühen Schichten mit hoher räumlicher Auflösung einfache, niedrigstufige visuelle Informationen modellieren, während tiefere Schichten mit räumlich grober, aber komplexer, hochdimensionaler Information arbeiten. Wir evaluieren diese grundlegende architektonische Priorität zur Modellierung der dichten Natur visueller Signale anhand verschiedener Videoerkennungsaufgaben, wobei unser Ansatz gegenüber gleichzeitigen Vision-Transformer-Modellen, die auf umfangreiche externe Vortrainingsdaten angewiesen sind und zwischen 5- und 10-fach mehr Rechenleistung sowie Parameter erfordern, übertrifft. Zudem entfernen wir die zeitliche Dimension und wenden unser Modell auf die Bildklassifikation an, wo es gegenüber vorhergehenden Arbeiten auf Basis von Vision-Transformern herausragt. Der Quellcode ist unter folgender Adresse verfügbar: https://github.com/facebookresearch/SlowFast


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp