HyperAIHyperAI
vor 17 Tagen

BIT: Bi-Modales zeitliches Modellieren für eine effiziente überwachte Aktionssegmentierung

Zijia Lu, Ehsan Elhamifar
BIT: Bi-Modales zeitliches Modellieren für eine effiziente überwachte Aktionssegmentierung
Abstract

Wir behandeln die Aufgabe der überwachten Aktionssegmentierung, die darauf abzielt, einen Video-Clip in sich nicht überschneidende Segmente zu zerlegen, wobei jedes Segment eine unterschiedliche Aktion repräsentiert. Kürzlich angewandte Transformer-Modelle zur zeitlichen Modellierung auf Frame-Ebene leiden jedoch unter hohem Rechenaufwand und können Aktionenüberlappungen über lange zeitliche Horizonte nicht effektiv erfassen. Um diese Probleme zu lösen, schlagen wir einen effizienten BI-Ebenen-zeitlichen Modellierungsansatz (BIT) vor, der explizite Aktions-Token nutzt, um Aktionssegmente darzustellen, und gleichzeitig zeitliche Modellierung auf Frame- und Aktions-Ebene parallel durchführt, dabei jedoch einen geringen Rechenaufwand beibehält. Unser Modell besteht aus (i) einem Frame-Branch, der Konvolutionen nutzt, um Beziehungen auf Frame-Ebene zu lernen, (ii) einem Aktions-Branch, der einen Transformer verwendet, um Abhängigkeiten auf Aktions-Ebene mit einer kleinen Menge an Aktions-Token zu erfassen, sowie (iii) Kreuz-Attention-Operationen, die den Informationsaustausch zwischen den beiden Branches ermöglichen. Wir wenden und erweitern ein Set-Prediction-Objektiv an, um zu gewährleisten, dass jeder Aktions-Token ein oder mehrere Aktionssegmente repräsentieren kann, wodurch die Notwendigkeit entfällt, eine große Anzahl von Token über lange Videos mit vielen Segmenten zu lernen. Durch die Gestaltung des Aktions-Branches können wir zudem nahtlos textuelle Transkripte von Videos (sofern verfügbar) nutzen, um die Aktionssegmentierung zu unterstützen, indem diese zur Initialisierung der Aktions-Token dienen. Wir evaluieren unser Modell auf vier Videodatenbanken (zwei egozentrisch, zwei perspektivisch von außen), sowohl mit als auch ohne Transkripte, und zeigen, dass BIT die aktuell beste Genauigkeit erzielt – und dies mit deutlich geringerem Rechenaufwand (30-mal schneller) im Vergleich zu bestehenden Transformer-basierten Ansätzen.