PointTAD: Multi-Label Temporal Action Detection mit lernbaren Abfragepunkten

Traditionelle zeitliche Aktionsdetektion (Temporal Action Detection, TAD) behandelt üblicherweise ungeschnittene Videos mit einer geringen Anzahl an Aktionsinstanzen aus einer einzigen Klasse (z. B. ActivityNet, THUMOS). Dieser Ansatz ist jedoch in der Praxis oft unrealistisch, da verschiedene Aktionsklassen häufig gleichzeitig auftreten. In dieser Arbeit konzentrieren wir uns auf die Aufgabe der mehrfach-labelbasierten zeitlichen Aktionsdetektion (Multi-label TAD), die darauf abzielt, alle Aktionsinstanzen in einem mehrfach-labelbasierten ungeschnittenen Video zu lokalisieren. Die mehrfach-labelbasierte TAD ist herausfordernder, da sie eine feinabgestimmte Klassendifferenzierung innerhalb eines einzelnen Videos sowie eine präzise Lokalisierung ko-auftretender Instanzen erfordert. Um dieses Problem zu bewältigen, erweitern wir den sparsen Abfrage-basierten Detektionsansatz der traditionellen TAD und stellen den PointTAD-Framework zur mehrfach-labelbasierten TAD vor. Konkret führt unser PointTAD eine kleine Menge lernbarer Abfragepunkte ein, um die bedeutenden Frames jeder Aktionsinstanz zu repräsentieren. Diese punktbasierte Darstellung bietet eine flexible Mechanik, um sowohl die diskriminativen Frames an den Rändern als auch die wichtigen Frames innerhalb der Aktionsintervalle zu lokalisieren. Darüber hinaus führen wir den Aktionsdekodierungsprozess mittels des Multi-level Interactive Modules durch, um sowohl punktuelle als auch instanzbezogene Aktionssemantik zu erfassen. Schließlich verwendet unser PointTAD einen end-to-end trainierbaren Rahmen, der lediglich auf RGB-Eingaben basiert und somit einfach einzusetzen ist. Wir evaluieren unsere Methode auf zwei etablierten Benchmarks und führen einen neuen Metriknamen, „detection-mAP“, für die mehrfach-labelbasierte TAD ein. Unser Modell erreicht unter der detection-mAP-Metrik eine deutliche Überlegenheit gegenüber allen vorherigen Ansätzen und erzielt zudem vielversprechende Ergebnisse bei der segmentation-mAP-Metrik. Der Quellcode ist unter https://github.com/MCG-NJU/PointTAD verfügbar.