HyperAIHyperAI

Command Palette

Search for a command to run...

ActionFormer: Lokalisierung von Aktionsmomenten mit Transformers

Chenlin Zhang Jianxin Wu Yin Li

Zusammenfassung

Transformer-Modelle, die auf Selbst-Attention basieren, haben beeindruckende Ergebnisse bei der Bildklassifizierung und Objekterkennung erzielt und kürzlich auch bei der Videoverstehensaufgabe gezeigt. Inspiriert durch diesen Erfolg untersuchen wir die Anwendung von Transformer-Netzwerken für die zeitliche Aktionslokalisierung in Videos. Dazu präsentieren wir ActionFormer – ein einfaches, aber leistungsfähiges Modell, das Aktionen zeitlich identifiziert und deren Kategorien in einem einzigen Durchlauf erkennt, ohne auf Aktionsskizzen (action proposals) oder vorgegebene Anchor-Fenster zurückzugreifen. ActionFormer kombiniert eine mehrskalige Merkmalsdarstellung mit lokaler Selbst-Attention und nutzt einen leichtgewichtigen Decoder, um jeden Zeitpunkt zu klassifizieren und die entsprechenden Aktionsgrenzen zu schätzen. Wir zeigen, dass diese sorgfältig gestaltete Architektur zu erheblichen Verbesserungen gegenüber vorhergehenden Ansätzen führt. Ohne zusätzliche Optimierungen erreicht ActionFormer auf THUMOS14 eine mAP von 71,0 % bei tIoU = 0,5 und übertrifft damit das beste vorherige Modell um 14,1 absolute Prozentpunkte. Zudem erzielt ActionFormer starke Ergebnisse auf ActivityNet 1.3 (36,6 % durchschnittliche mAP) und EPIC-Kitchens 100 (+13,5 % durchschnittliche mAP gegenüber vorherigen Arbeiten). Der Quellcode ist unter http://github.com/happyharrycn/actionformer_release verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp