HyperAIHyperAI

Command Palette

Search for a command to run...

Auf den Ball achten: Trajektorien-Attention in Video-Transformern

Mandela Patrick Dylan Campbell Yuki M. Asano Ishan Misra Florian Metze Christoph Feichtenhofer Andrea Vedaldi João F. Henriques

Zusammenfassung

Bei Video-Transformern wird die Zeitdimension oft auf dieselbe Weise behandelt wie die beiden räumlichen Dimensionen. In Szenen, in denen Objekte oder die Kamera sich bewegen, kann ein physikalischer Punkt, der in Frame ttt an einer bestimmten Stelle abgebildet ist, völlig unabhängig von dem sein, was an derselben Stelle im Frame t+kt+kt+k zu finden ist. Diese zeitlichen Korrespondenzen sollten modelliert werden, um das Lernen über dynamische Szenen zu erleichtern. Dazu schlagen wir einen neuen, problemunabhängigen Baustein für Video-Transformers vor – die Trajektorien-Attention –, die Informationen entlang implizit bestimmter Bewegungspfade aggregiert. Zusätzlich präsentieren wir eine neue Methode zur Lösung der quadratischen Abhängigkeit von Berechnungsaufwand und Speicherbedarf von der Eingabegröße, was besonders für hochauflösende oder lange Videos von Bedeutung ist. Obwohl diese Ansätze in einer Vielzahl von Anwendungsszenarien nützlich sind, wenden wir sie speziell auf die Aufgabe der Video-Aktionserkennung mit einem Transformer-Modell an und erreichen dabei Stand der Technik Ergebnisse auf den Datensätzen Kinetics, Something–Something V2 und Epic-Kitchens. Der Quellcode und die Modelle sind verfügbar unter: https://github.com/facebookresearch/Motionformer


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Auf den Ball achten: Trajektorien-Attention in Video-Transformern | Paper | HyperAI