HyperAIHyperAI
vor 17 Tagen

Temporale Abfrage-Netzwerke für die feinkörnige Videoverstehens

Chuhan Zhang, Ankush Gupta, Andrew Zisserman
Temporale Abfrage-Netzwerke für die feinkörnige Videoverstehens
Abstract

Unser Ziel in dieser Arbeit ist die feinkörnige Klassifikation von Aktionen in ungeschnittenen Videos, bei denen die Aktionen zeitlich ausgedehnt sein können oder sich auf lediglich einige Frames des Videos beschränken. Wir formulieren dieses Problem als ein Abfrage-Antwort-Mechanismus, bei dem jede Abfrage eine spezifische Frage adressiert und über eine eigene Menge an Antwortlabels verfügt. Wir leisten folgende vier Beiträge: (I) Wir stellen ein neues Modell vor – ein Temporales Abfragenetzwerk (Temporal Query Network, TQN) – vor, das die Abfrage-Antwort-Funktionalität ermöglicht und ein strukturelles Verständnis feinkörniger Aktionen unterstützt. Es konzentriert sich mit einer zeitlichen Aufmerksamkeitsmechanik auf relevante Segmente für jede Abfrage und kann ausschließlich anhand der Labels jeder einzelnen Abfrage trainiert werden. (II) Wir schlagen eine neue Methode – die stochastische Aktualisierung der Merkmalsbank – vor, um ein Netzwerk auf Videos unterschiedlicher Länge zu trainieren, wobei eine dichte Stichprobenziehung erforderlich ist, um feinkörnige Abfragen adäquat beantworten zu können. (III) Wir vergleichen das TQN mit anderen Architekturen und Ansätzen zur Textsupervision und analysieren deren Vor- und Nachteile. Schließlich (IV) evaluieren wir die Methode umfassend auf den Benchmarks FineGym und Diving48 für die feinkörnige Aktionserkennung und erreichen dabei die bisher beste Leistung, wobei lediglich RGB-Features verwendet werden.