HyperAIHyperAI

Command Palette

Search for a command to run...

Antizipativer Video-Transformer

Rohit Girdhar Kristen Grauman

Zusammenfassung

Wir stellen den Anticipative Video Transformer (AVT) vor, eine end-to-end-architektur basierend auf Aufmerksamkeit für die Videomodellierung, die sich auf die bereits beobachteten Teile eines Videos konzentriert, um zukünftige Aktionen vorherzusagen. Das Modell wird gemeinsam darauf trainiert, die nächste Aktion in einer Videosequenz vorherzusagen, während es gleichzeitig Frame-Feature-Encoder lernt, die prädiktiv für die Merkmale nachfolgender zukünftiger Frames sind. Im Vergleich zu bestehenden Strategien zur zeitlichen Aggregation besitzt AVT den Vorteil, sowohl die sequenzielle Abfolge der beobachteten Aktionen beizubehalten als auch lange Reichweiten-Abhängigkeiten zu erfassen – beides entscheidend für die Aufgabe der Aktionserwartung. Durch umfangreiche Experimente zeigen wir, dass AVT die bisher besten Ergebnisse auf vier etablierten Benchmarks für Aktionserwartung erzielt: EpicKitchens-55, EpicKitchens-100, EGTEA Gaze+ und 50-Salads; zudem erreicht es den ersten Platz im EpicKitchens-100 CVPR’21-Wettbewerb.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp