HyperAIHyperAI

Command Palette

Search for a command to run...

Temporale Abfrage-Netzwerke für die feinkörnige Videoverstehens

Chuhan Zhang Ankush Gupta Andrew Zisserman

Zusammenfassung

Unser Ziel in dieser Arbeit ist die feinkörnige Klassifikation von Aktionen in ungeschnittenen Videos, bei denen die Aktionen zeitlich ausgedehnt sein können oder sich auf lediglich einige Frames des Videos beschränken. Wir formulieren dieses Problem als ein Abfrage-Antwort-Mechanismus, bei dem jede Abfrage eine spezifische Frage adressiert und über eine eigene Menge an Antwortlabels verfügt. Wir leisten folgende vier Beiträge: (I) Wir stellen ein neues Modell vor – ein Temporales Abfragenetzwerk (Temporal Query Network, TQN) – vor, das die Abfrage-Antwort-Funktionalität ermöglicht und ein strukturelles Verständnis feinkörniger Aktionen unterstützt. Es konzentriert sich mit einer zeitlichen Aufmerksamkeitsmechanik auf relevante Segmente für jede Abfrage und kann ausschließlich anhand der Labels jeder einzelnen Abfrage trainiert werden. (II) Wir schlagen eine neue Methode – die stochastische Aktualisierung der Merkmalsbank – vor, um ein Netzwerk auf Videos unterschiedlicher Länge zu trainieren, wobei eine dichte Stichprobenziehung erforderlich ist, um feinkörnige Abfragen adäquat beantworten zu können. (III) Wir vergleichen das TQN mit anderen Architekturen und Ansätzen zur Textsupervision und analysieren deren Vor- und Nachteile. Schließlich (IV) evaluieren wir die Methode umfassend auf den Benchmarks FineGym und Diving48 für die feinkörnige Aktionserkennung und erreichen dabei die bisher beste Leistung, wobei lediglich RGB-Features verwendet werden.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Temporale Abfrage-Netzwerke für die feinkörnige Videoverstehens | Paper | HyperAI