HyperAIHyperAI

Command Palette

Search for a command to run...

OadTR: Online-Erkennung von Aktionen mit Transformers

Xiang Wang; Shiwei Zhang; Zhiwu Qing; Yuanjie Shao; Zhengrong Zuo; Changxin Gao; Nong Sang

Zusammenfassung

Die meisten aktuellen Ansätze zur Online-Aktionserkennung neigen dazu, Rekurrente Neuronale Netze (RNN) anzuwenden, um langfristige zeitliche Strukturen zu erfassen. Allerdings leiden RNN unter Nicht-Parallelität und Gradientenverschwinden, wodurch sie schwer zu optimieren sind. In dieser Arbeit schlagen wir einen neuen Encoder-Decoder-Framework auf Basis von Transformers vor, den wir OadTR nennen, um diese Probleme anzugehen. Der am Encoder angebrachte Task-Token soll die Beziehungen und globalen Interaktionen zwischen historischen Beobachtungen erfassen. Der Decoder extrahiert zusätzliche Informationen durch die Aggregation erwarteter zukünftiger Clip-Repräsentationen. Somit kann OadTR aktuelle Aktionen erkennen, indem es historische Informationen kodiert und gleichzeitig zukünftige Kontexte vorhersagt. Wir evaluieren das vorgeschlagene OadTR ausführlich anhand dreier anspruchsvoller Datensätze: HDD, TVSeries und THUMOS14. Die experimentellen Ergebnisse zeigen, dass OadTR höhere Trainings- und Inferenzgeschwindigkeiten als derzeitige RNN-basierte Ansätze erreicht und die Standesmethoden sowohl in Bezug auf mAP als auch mcAP deutlich übertrifft. Der Quellcode ist unter https://github.com/wangxiang1230/OadTR verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
OadTR: Online-Erkennung von Aktionen mit Transformers | Paper | HyperAI