HyperAIHyperAI

Command Palette

Search for a command to run...

TadML: Ein schneller zeitlicher Aktionsdetektionsansatz mit Mechanics-MLP

Bowen Deng Dongchang Liu

Zusammenfassung

Temporale Aktionsdetektion (Temporal Action Detection, TAD) ist eine entscheidende, jedoch herausfordernde Aufgabe im Bereich des Videoverstehens. Ziel ist es, sowohl die Art als auch den Start- und Endframe jeder Aktionsinstanz in einem langen, ungeschnittenen Video zu detektieren. Die meisten aktuellen Modelle setzen hierfür sowohl auf RGB- als auch auf Optische-Fluss-Streams. Daher müssen die ursprünglichen RGB-Bilder manuell in Optische-Fluss-Bilder umgewandelt werden, was zusätzlichen Rechenaufwand und Zeitbedarf verursacht – ein Hindernis für die Erreichung einer Echtzeitverarbeitung. Derzeit verwenden viele Modelle zweistufige Strategien, die die Inferenzgeschwindigkeit verlangsamen und eine komplizierte Abstimmung der Vorschlagsgenerierung erfordern. Im Gegensatz dazu schlagen wir eine einstufige, anchor-free Methode zur zeitlichen Lokalisierung mit ausschließlichem RGB-Stream vor, bei der eine neuartige Architektur auf Basis von Newtonscher Mechanik und MLP (Newtonian Mechanics-MLP) eingeführt wird. Diese erreicht eine vergleichbare Genauigkeit wie alle bestehenden State-of-the-Art-Modelle, übertroffen jedoch die Inferenzgeschwindigkeit dieser Methoden deutlich. Die typische Inferenzgeschwindigkeit in dieser Arbeit beträgt beeindruckende 4,44 Videos pro Sekunde auf dem THUMOS14-Datensatz. In praktischen Anwendungen wird die Inferenzgeschwindigkeit noch weiter steigen, da keine Umwandlung von optischem Fluss erforderlich ist. Zudem zeigt die Studie, dass MLP erhebliches Potenzial für nachgeschaltete Aufgaben wie TAD besitzt. Der Quellcode ist unter https://github.com/BonedDeng/TadML verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
TadML: Ein schneller zeitlicher Aktionsdetektionsansatz mit Mechanics-MLP | Paper | HyperAI