vor 11 Tagen

ActionFormer: Lokalisierung von Aktionsmomenten mit Transformers

Chenlin Zhang, Jianxin Wu, Yin Li

Abstract

Transformer-Modelle, die auf Selbst-Attention basieren, haben beeindruckende Ergebnisse bei der Bildklassifizierung und Objekterkennung erzielt und kürzlich auch bei der Videoverstehensaufgabe gezeigt. Inspiriert durch diesen Erfolg untersuchen wir die Anwendung von Transformer-Netzwerken für die zeitliche Aktionslokalisierung in Videos. Dazu präsentieren wir ActionFormer – ein einfaches, aber leistungsfähiges Modell, das Aktionen zeitlich identifiziert und deren Kategorien in einem einzigen Durchlauf erkennt, ohne auf Aktionsskizzen (action proposals) oder vorgegebene Anchor-Fenster zurückzugreifen. ActionFormer kombiniert eine mehrskalige Merkmalsdarstellung mit lokaler Selbst-Attention und nutzt einen leichtgewichtigen Decoder, um jeden Zeitpunkt zu klassifizieren und die entsprechenden Aktionsgrenzen zu schätzen. Wir zeigen, dass diese sorgfältig gestaltete Architektur zu erheblichen Verbesserungen gegenüber vorhergehenden Ansätzen führt. Ohne zusätzliche Optimierungen erreicht ActionFormer auf THUMOS14 eine mAP von 71,0 % bei tIoU = 0,5 und übertrifft damit das beste vorherige Modell um 14,1 absolute Prozentpunkte. Zudem erzielt ActionFormer starke Ergebnisse auf ActivityNet 1.3 (36,6 % durchschnittliche mAP) und EPIC-Kitchens 100 (+13,5 % durchschnittliche mAP gegenüber vorherigen Arbeiten). Der Quellcode ist unter http://github.com/happyharrycn/actionformer_release verfügbar.