HyperAIHyperAI

Command Palette

Search for a command to run...

ViViT: Ein Video Vision Transformer

Anurag Arnab Mostafa Dehghani Georg Heigold Chen Sun Mario Lučić Cordelia Schmid

Zusammenfassung

Wir präsentieren rein-transformer-basierte Modelle für die Video-Klassifikation, die sich an dem jüngsten Erfolg solcher Modelle bei der Bildklassifikation orientieren. Unser Modell extrahiert spatio-temporale Tokens aus dem Eingabevideo, die anschließend durch eine Reihe von Transformer-Schichten kodiert werden. Um mit den langen Sequenzen von Tokens umgehen zu können, die bei Videos auftreten, schlagen wir mehrere effiziente Varianten unseres Modells vor, die die räumlichen und zeitlichen Dimensionen der Eingabe faktorisieren. Obwohl Transformer-basierte Modelle bekanntermaßen nur dann effektiv sind, wenn große Trainingsdatensätze zur Verfügung stehen, zeigen wir, wie wir das Modell während des Trainings effektiv regularisieren und vortrainierte Bildmodelle nutzen können, um auch auf vergleichsweise kleinen Datensätzen effizient trainieren zu können. Wir führen umfassende Ablationsstudien durch und erreichen state-of-the-art-Ergebnisse auf mehreren Benchmarks für Video-Klassifikation, darunter Kinetics 400 und 600, Epic Kitchens, Something-Something v2 und Moments in Time, wobei wir vorherige Methoden auf Basis tiefer 3D-Faltungsnetze übertrifft. Um weitere Forschung zu erleichtern, stellen wir den Quellcode unter https://github.com/google-research/scenic/tree/main/scenic/projects/vivit zur Verfügung.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
ViViT: Ein Video Vision Transformer | Paper | HyperAI