TadML: Ein schneller zeitlicher Aktionsdetektionsansatz mit Mechanics-MLP

Temporale Aktionsdetektion (Temporal Action Detection, TAD) ist eine entscheidende, jedoch herausfordernde Aufgabe im Bereich des Videoverstehens. Ziel ist es, sowohl die Art als auch den Start- und Endframe jeder Aktionsinstanz in einem langen, ungeschnittenen Video zu detektieren. Die meisten aktuellen Modelle setzen hierfür sowohl auf RGB- als auch auf Optische-Fluss-Streams. Daher müssen die ursprünglichen RGB-Bilder manuell in Optische-Fluss-Bilder umgewandelt werden, was zusätzlichen Rechenaufwand und Zeitbedarf verursacht – ein Hindernis für die Erreichung einer Echtzeitverarbeitung. Derzeit verwenden viele Modelle zweistufige Strategien, die die Inferenzgeschwindigkeit verlangsamen und eine komplizierte Abstimmung der Vorschlagsgenerierung erfordern. Im Gegensatz dazu schlagen wir eine einstufige, anchor-free Methode zur zeitlichen Lokalisierung mit ausschließlichem RGB-Stream vor, bei der eine neuartige Architektur auf Basis von Newtonscher Mechanik und MLP (Newtonian Mechanics-MLP) eingeführt wird. Diese erreicht eine vergleichbare Genauigkeit wie alle bestehenden State-of-the-Art-Modelle, übertroffen jedoch die Inferenzgeschwindigkeit dieser Methoden deutlich. Die typische Inferenzgeschwindigkeit in dieser Arbeit beträgt beeindruckende 4,44 Videos pro Sekunde auf dem THUMOS14-Datensatz. In praktischen Anwendungen wird die Inferenzgeschwindigkeit noch weiter steigen, da keine Umwandlung von optischem Fluss erforderlich ist. Zudem zeigt die Studie, dass MLP erhebliches Potenzial für nachgeschaltete Aufgaben wie TAD besitzt. Der Quellcode ist unter https://github.com/BonedDeng/TadML verfügbar.