OadTR: Online-Erkennung von Aktionen mit Transformers

Die meisten aktuellen Ansätze zur Online-Aktionserkennung neigen dazu, Rekurrente Neuronale Netze (RNN) anzuwenden, um langfristige zeitliche Strukturen zu erfassen. Allerdings leiden RNN unter Nicht-Parallelität und Gradientenverschwinden, wodurch sie schwer zu optimieren sind. In dieser Arbeit schlagen wir einen neuen Encoder-Decoder-Framework auf Basis von Transformers vor, den wir OadTR nennen, um diese Probleme anzugehen. Der am Encoder angebrachte Task-Token soll die Beziehungen und globalen Interaktionen zwischen historischen Beobachtungen erfassen. Der Decoder extrahiert zusätzliche Informationen durch die Aggregation erwarteter zukünftiger Clip-Repräsentationen. Somit kann OadTR aktuelle Aktionen erkennen, indem es historische Informationen kodiert und gleichzeitig zukünftige Kontexte vorhersagt. Wir evaluieren das vorgeschlagene OadTR ausführlich anhand dreier anspruchsvoller Datensätze: HDD, TVSeries und THUMOS14. Die experimentellen Ergebnisse zeigen, dass OadTR höhere Trainings- und Inferenzgeschwindigkeiten als derzeitige RNN-basierte Ansätze erreicht und die Standesmethoden sowohl in Bezug auf mAP als auch mcAP deutlich übertrifft. Der Quellcode ist unter https://github.com/wangxiang1230/OadTR verfügbar.