HyperAIHyperAI

Command Palette

Search for a command to run...

VidTr: Video Transformer ohne Faltung

Yanyi Zhang Xinyu Li Chunhui Liu Bing Shuai Yi Zhu Biagio Brattoli Hao Chen Ivan Marsic Joseph Tighe

Zusammenfassung

Wir stellen den Video Transformer (VidTr) mit separabler Aufmerksamkeit für die Video-Klassifikation vor. Im Vergleich zu üblichen 3D-Netzwerken ist VidTr in der Lage, räumlich-zeitliche Informationen durch geschachtelte Aufmerksamkeiten zu aggregieren und dabei eine bessere Leistung mit höherer Effizienz zu erzielen. Zunächst führen wir den grundlegenden Video-Transformer ein und zeigen, dass das Transformer-Modul in der Lage ist, räumlich-zeitliches Modellieren direkt aus rohen Pixeln durchzuführen, dies jedoch mit hohem Speicherverbrauch verbunden ist. Anschließend präsentieren wir VidTr, das den Speicherverbrauch um den Faktor 3,3 reduziert, ohne die Leistung zu beeinträchtigen. Um das Modell weiter zu optimieren, schlagen wir eine auf der Standardabweichung basierende Top-K-Pooling-Methode für die Aufmerksamkeit (pooltopKstdpool_{topK_std}pooltopKstd) vor, die die Berechnungskosten senkt, indem informative Merkmale entlang der zeitlichen Dimension eliminiert werden. VidTr erreicht auf fünf häufig verwendeten Datensätzen Spitzenleistungen bei geringerem computacionalen Aufwand und demonstriert damit sowohl Effizienz als auch Wirksamkeit unseres Designs. Schließlich zeigen Fehleranalyse und Visualisierungen, dass VidTr besonders gut bei der Vorhersage von Aktionen ist, die eine langfristige zeitliche Schlussfolgerung erfordern.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp