HyperAIHyperAI

Command Palette

Search for a command to run...

vor 4 Monaten

FAKT: Frame-Action Cross-Attention-Zeitmodellierung für effiziente Aktionssegmentierung

{Ehsan Elhamifar Zijia Lu}

FAKT: Frame-Action Cross-Attention-Zeitmodellierung für effiziente Aktionssegmentierung

Abstract

Wir untersuchen das überwachte Aktionssegmentierungsproblem, dessen Ziel darin besteht, frameweise Aktionslabels für ein Video vorherzusagen. Um zeitliche Abhängigkeiten über lange Horizonte zu erfassen, verbessern bisherige Ansätze entweder frameweise Merkmale mittels Transformer oder verfeinern frameweise Vorhersagen mittels gelernter Aktionsmerkmale. Diese Ansätze sind jedoch rechenintensiv und ignorieren, dass Frame- und Aktionsmerkmale komplementäre Informationen enthalten, die genutzt werden können, um sowohl die Merkmale zu verbessern als auch die zeitliche Modellierung zu verfeinern. Daher schlagen wir einen effizienten Frame-Action Cross-Attention Temporal Modeling (FACT)-Rahmen vor, der die zeitliche Modellierung parallel mit Frame- und Aktionsmerkmalen durchführt und diese Parallelität nutzt, um iterativen bidirektionalen Informationsaustausch zwischen den Merkmalen zu ermöglichen und diese zu verfeinern. Das FACT-Netzwerk besteht aus (i) einem Frame-Branch, der framebasierte Informationen mittels Faltungen und Frame-Merkmale lernt, (ii) einem Aktions-Branch, der aktionsbasierte Abhängigkeiten mittels Transformer und Aktions-Tokens erlernt, sowie (iii) Cross-Attention-Modulen, die den Austausch zwischen den beiden Branches ermöglichen. Außerdem schlagen wir eine neue Matching-Verlustfunktion vor, die sicherstellt, dass jeder Aktions-Token eindeutig ein Aktionssegment kodiert, wodurch dessen Semantik besser erfasst wird. Dank unserer Architektur können wir zudem Texttranskripte von Videos nutzen, um die Aktionssegmentierung zu unterstützen. Wir evaluieren FACT auf vier Videodatenbanken (zwei egozentrisch und zwei third-person) für die Aktionssegmentierung mit und ohne Transkripte und zeigen, dass unsere Methode die aktuell beste Genauigkeit erheblich übertrifft, während sie gleichzeitig einen niedrigeren Rechenaufwand aufweist (bis zu drei Mal schneller als bestehende Transformer-basierte Methoden).

Benchmarks

BenchmarkMethodikMetriken
action-segmentation-on-breakfast-1FACT (efficient hybrid of convolution and transformer model)
Acc: 76.2
Average F1: 74.7
Edit: 79.7
F1@10%: 81.4
F1@25%: 76.5
F1@50%: 66.2
action-segmentation-on-gtea-1FACT
Acc: 84.5
Edit: 93.5
F1@10%: 96.1
F1@25%: 95.6
F1@50%: 87.5

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
FAKT: Frame-Action Cross-Attention-Zeitmodellierung für effiziente Aktionssegmentierung | Forschungsarbeiten | HyperAI