vor 6 Monaten

Zusammenfassung

Unser Ziel in dieser Arbeit ist die feinkörnige Klassifikation von Aktionen in ungeschnittenen Videos, bei denen die Aktionen zeitlich ausgedehnt sein können oder sich auf lediglich einige Frames des Videos beschränken. Wir formulieren dieses Problem als ein Abfrage-Antwort-Mechanismus, bei dem jede Abfrage eine spezifische Frage adressiert und über eine eigene Menge an Antwortlabels verfügt. Wir leisten folgende vier Beiträge: (I) Wir stellen ein neues Modell vor – ein Temporales Abfragenetzwerk (Temporal Query Network, TQN) – vor, das die Abfrage-Antwort-Funktionalität ermöglicht und ein strukturelles Verständnis feinkörniger Aktionen unterstützt. Es konzentriert sich mit einer zeitlichen Aufmerksamkeitsmechanik auf relevante Segmente für jede Abfrage und kann ausschließlich anhand der Labels jeder einzelnen Abfrage trainiert werden. (II) Wir schlagen eine neue Methode – die stochastische Aktualisierung der Merkmalsbank – vor, um ein Netzwerk auf Videos unterschiedlicher Länge zu trainieren, wobei eine dichte Stichprobenziehung erforderlich ist, um feinkörnige Abfragen adäquat beantworten zu können. (III) Wir vergleichen das TQN mit anderen Architekturen und Ansätzen zur Textsupervision und analysieren deren Vor- und Nachteile. Schließlich (IV) evaluieren wir die Methode umfassend auf den Benchmarks FineGym und Diving48 für die feinkörnige Aktionserkennung und erreichen dabei die bisher beste Leistung, wobei lediglich RGB-Features verwendet werden.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Videobegreifen

Aktionserkennung

Visuelle Fragebeantwortung

Multimodal

Computervision

Aufgabe

Chuhan Zhang Ankush Gupta Andrew Zisserman

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Videobegreifen

Aktionserkennung

Visuelle Fragebeantwortung

Multimodal

Computervision

Aufgabe

Chuhan Zhang Ankush Gupta Andrew Zisserman

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Temporale Abfrage-Netzwerke für die feinkörnige Videoverstehens | Paper | HyperAI

Command Palette

Temporale Abfrage-Netzwerke für die feinkörnige Videoverstehens

Chuhan Zhang Ankush Gupta Andrew Zisserman

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Temporale Abfrage-Netzwerke für die feinkörnige Videoverstehens

Chuhan Zhang Ankush Gupta Andrew Zisserman

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Temporale Abfrage-Netzwerke für die feinkörnige Videoverstehens

Chuhan Zhang Ankush Gupta Andrew Zisserman

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters