Aktionen als bewegliche Punkte

Bestehende Action-Tubelet-Detektoren beruhen oft auf heuristischer Anchor-Design- und Platzierungsstrategie, was rechenintensiv und suboptimal für eine präzise Lokalisierung sein kann. In diesem Artikel präsentieren wir einen konzeptionell einfachen, recheneffizienten und präziseren Ansatz für die Action-Tubelet-Detektion, den sogenannten MovingCenter-Detector (MOC-Detector), indem wir eine Aktionsinstanz als Bahn bewegter Punkte modellieren. Ausgehend von der Erkenntnis, dass Bewegungsinformationen die Detektion von Action-Tubelets vereinfachen und unterstützen können, besteht der MOC-Detector aus drei entscheidenden Kopfzweigen: (1) Center-Zweig zur Detektion des Instanzzentrums und zur Aktionserkennung, (2) Movement-Zweig zur Schätzung der Bewegung zwischen benachbarten Bildern, um Bahnen bewegter Punkte zu bilden, und (3) Box-Zweig zur Detektion des räumlichen Ausmaßes durch direkte Regression der Bounding-Box-Größe an jedem geschätzten Zentrum. Diese drei Zweige arbeiten zusammen, um die Tubelet-Detektionsergebnisse zu generieren, die anschließend mittels einer Zuordnungsstrategie zu videoübergreifenden Tubes verknüpft werden können. Der MOC-Detector erreicht auf den Datensätzen JHMDB und UCF101-24 sowohl für die Metriken frame-mAP als auch video-mAP eine bessere Leistung als bestehende State-of-the-Art-Methoden. Der Leistungsunterschied ist besonders deutlich bei höheren Video-IoU-Werten, was zeigt, dass der MOC-Detector insbesondere für eine präzise Aktionsdetektion besonders effektiv ist. Den Quellcode stellen wir unter https://github.com/MCG-NJU/MOC-Detector zur Verfügung.