End-to-End Temporale Aktionsdetektion mit Transformer

Die zeitliche Aktionsdetektion (Temporal Action Detection, TAD) zielt darauf ab, für jede Aktionsinstanz in einem ungeschnittenen Video sowohl die semantische Bezeichnung als auch das zeitliche Intervall zu bestimmen. Es handelt sich um eine grundlegende und herausfordernde Aufgabe im Bereich der Videoverstehens. Bisherige Ansätze bearbeiten diese Aufgabe mittels komplexer, mehrstufiger Pipelines. Häufig müssen mehrere Netzwerke trainiert werden, und es werden handkodierte Operationen wie die nicht-maximale Unterdrückung (non-maximal suppression) oder die Generierung von Anchors eingesetzt, was die Flexibilität einschränkt und eine end-to-end-Lernung verhindert. In diesem Artikel stellen wir eine end-to-end-Transformer-basierte Methode für die TAD vor, die als TadTR bezeichnet wird. Ausgehend von einer kleinen Menge lernbarer Embeddings, sogenannter Aktionsabfragen (action queries), extrahiert TadTR adaptiv zeitliche Kontextinformationen aus dem Video für jede Abfrage und prognostiziert direkt Aktionsinstanzen auf Basis dieses Kontextes. Um den Transformer für die TAD besser geeignet zu machen, schlagen wir drei Verbesserungen vor, um die Lokalitätsbewusstsein zu stärken. Kernstück ist ein zeitlich deformierbarer Aufmerksamkeitsmodul (temporal deformable attention), der selektiv auf eine spärliche Menge von Schlüssel-Snippets in einem Video fokussiert. Zusätzlich wurden eine Segmentverfeinerungsmechanismus und ein Actionness-Regression-Kopf entworfen, um jeweils die Grenzen und die Zuverlässigkeit der prognostizierten Instanzen zu verfeinern. Durch diese einfache Pipeline erfordert TadTR geringeren Rechenaufwand als frühere Detektoren und erreicht gleichzeitig bemerkenswerte Leistung. Als eigenständiger Detektor erzielt TadTR die bisher beste Performance auf THUMOS14 (56,7 % mAP) und HACS Segments (32,09 % mAP). In Kombination mit einem zusätzlichen Aktionsklassifikator erreicht es 36,75 % mAP auf ActivityNet-1.3. Der Quellcode ist unter https://github.com/xlliu7/TadTR verfügbar.