HyperAIHyperAI

Command Palette

Search for a command to run...

BIT: Bi-Modales zeitliches Modellieren für eine effiziente überwachte Aktionssegmentierung

Zijia Lu Ehsan Elhamifar

Zusammenfassung

Wir behandeln die Aufgabe der überwachten Aktionssegmentierung, die darauf abzielt, einen Video-Clip in sich nicht überschneidende Segmente zu zerlegen, wobei jedes Segment eine unterschiedliche Aktion repräsentiert. Kürzlich angewandte Transformer-Modelle zur zeitlichen Modellierung auf Frame-Ebene leiden jedoch unter hohem Rechenaufwand und können Aktionenüberlappungen über lange zeitliche Horizonte nicht effektiv erfassen. Um diese Probleme zu lösen, schlagen wir einen effizienten BI-Ebenen-zeitlichen Modellierungsansatz (BIT) vor, der explizite Aktions-Token nutzt, um Aktionssegmente darzustellen, und gleichzeitig zeitliche Modellierung auf Frame- und Aktions-Ebene parallel durchführt, dabei jedoch einen geringen Rechenaufwand beibehält. Unser Modell besteht aus (i) einem Frame-Branch, der Konvolutionen nutzt, um Beziehungen auf Frame-Ebene zu lernen, (ii) einem Aktions-Branch, der einen Transformer verwendet, um Abhängigkeiten auf Aktions-Ebene mit einer kleinen Menge an Aktions-Token zu erfassen, sowie (iii) Kreuz-Attention-Operationen, die den Informationsaustausch zwischen den beiden Branches ermöglichen. Wir wenden und erweitern ein Set-Prediction-Objektiv an, um zu gewährleisten, dass jeder Aktions-Token ein oder mehrere Aktionssegmente repräsentieren kann, wodurch die Notwendigkeit entfällt, eine große Anzahl von Token über lange Videos mit vielen Segmenten zu lernen. Durch die Gestaltung des Aktions-Branches können wir zudem nahtlos textuelle Transkripte von Videos (sofern verfügbar) nutzen, um die Aktionssegmentierung zu unterstützen, indem diese zur Initialisierung der Aktions-Token dienen. Wir evaluieren unser Modell auf vier Videodatenbanken (zwei egozentrisch, zwei perspektivisch von außen), sowohl mit als auch ohne Transkripte, und zeigen, dass BIT die aktuell beste Genauigkeit erzielt – und dies mit deutlich geringerem Rechenaufwand (30-mal schneller) im Vergleich zu bestehenden Transformer-basierten Ansätzen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
BIT: Bi-Modales zeitliches Modellieren für eine effiziente überwachte Aktionssegmentierung | Paper | HyperAI