HyperAIHyperAI

Command Palette

Search for a command to run...

End-to-End Temporale Aktionsdetektion mit Transformer

Xiaolong Liu Qimeng Wang Yao Hu Xu Tang Shiwei Zhang Song Bai Xiang Bai

Zusammenfassung

Die zeitliche Aktionsdetektion (Temporal Action Detection, TAD) zielt darauf ab, für jede Aktionsinstanz in einem ungeschnittenen Video sowohl die semantische Bezeichnung als auch das zeitliche Intervall zu bestimmen. Es handelt sich um eine grundlegende und herausfordernde Aufgabe im Bereich der Videoverstehens. Bisherige Ansätze bearbeiten diese Aufgabe mittels komplexer, mehrstufiger Pipelines. Häufig müssen mehrere Netzwerke trainiert werden, und es werden handkodierte Operationen wie die nicht-maximale Unterdrückung (non-maximal suppression) oder die Generierung von Anchors eingesetzt, was die Flexibilität einschränkt und eine end-to-end-Lernung verhindert. In diesem Artikel stellen wir eine end-to-end-Transformer-basierte Methode für die TAD vor, die als TadTR bezeichnet wird. Ausgehend von einer kleinen Menge lernbarer Embeddings, sogenannter Aktionsabfragen (action queries), extrahiert TadTR adaptiv zeitliche Kontextinformationen aus dem Video für jede Abfrage und prognostiziert direkt Aktionsinstanzen auf Basis dieses Kontextes. Um den Transformer für die TAD besser geeignet zu machen, schlagen wir drei Verbesserungen vor, um die Lokalitätsbewusstsein zu stärken. Kernstück ist ein zeitlich deformierbarer Aufmerksamkeitsmodul (temporal deformable attention), der selektiv auf eine spärliche Menge von Schlüssel-Snippets in einem Video fokussiert. Zusätzlich wurden eine Segmentverfeinerungsmechanismus und ein Actionness-Regression-Kopf entworfen, um jeweils die Grenzen und die Zuverlässigkeit der prognostizierten Instanzen zu verfeinern. Durch diese einfache Pipeline erfordert TadTR geringeren Rechenaufwand als frühere Detektoren und erreicht gleichzeitig bemerkenswerte Leistung. Als eigenständiger Detektor erzielt TadTR die bisher beste Performance auf THUMOS14 (56,7 % mAP) und HACS Segments (32,09 % mAP). In Kombination mit einem zusätzlichen Aktionsklassifikator erreicht es 36,75 % mAP auf ActivityNet-1.3. Der Quellcode ist unter https://github.com/xlliu7/TadTR verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp