HyperAIHyperAI

Command Palette

Search for a command to run...

Ist Raum-Zeit-Attention alles, was man für das Verständnis von Videos benötigt?

Gedas Bertasius Heng Wang Lorenzo Torresani

Zusammenfassung

Wir präsentieren einen convolutionsfreien Ansatz für die Videoklassifikation, der ausschließlich auf selbstdefinierten Aufmerksamkeitsmechanismen über Raum und Zeit basiert. Unser Verfahren, benannt als „TimeSformer“, adaptiert die standardmäßige Transformer-Architektur für Videos, indem es die lernbaren spatiotemporalen Merkmale direkt aus einer Folge von framebasierten Patch-Teilen erfasst. Unsere experimentelle Studie vergleicht verschiedene Selbstaufmerksamkeits-Schemata und zeigt, dass die „geteilte Aufmerksamkeit“ – bei der zeitliche und räumliche Aufmerksamkeit innerhalb jedes Blocks getrennt angewendet werden – die höchste Klassifikationsgenauigkeit bei Videoaufgaben im Vergleich zu den untersuchten Architekturvarianten erzielt. Trotz der grundlegend neuen Architektur erreicht TimeSformer state-of-the-art Ergebnisse auf mehreren Benchmarks für Aktionserkennung, darunter die bisher bestgemeldete Genauigkeit auf Kinetics-400 und Kinetics-600. Zudem ist unser Modell im Vergleich zu 3D-Convolutional Networks schneller trainierbar, erreicht eine deutlich höhere Testeffizienz (bei nur geringfügigem Genauigkeitsverlust) und kann auch auf wesentlich längere Videosequenzen (länger als eine Minute) angewendet werden. Der Quellcode und die Modelle sind verfügbar unter: https://github.com/facebookresearch/TimeSformer.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp