HyperAIHyperAI

Command Palette

Search for a command to run...

Komplettitätsmodellierung und Kontexttrennung für schwach überwachte zeitliche Aktionslokalisierung

Yizhou Wang Tingting Jiang Daochang Liu

Zusammenfassung

Die zeitliche Aktionslokalisierung ist entscheidend für das Verständnis von ungeschnittenen Videos. In dieser Arbeit identifizieren wir zunächst zwei bisher wenig untersuchte Probleme, die sich aus der schwachen Supervision für die zeitliche Aktionslokalisierung ergeben: die Modellierung der Aktionsvollständigkeit und die Trennung von Aktionsinhalten von deren Kontext. Anschließend behandeln wir diese beiden Probleme explizit durch die Einführung einer neuen Netzarchitektur und eines entsprechenden Trainingsstrategie. Konkret schlagen wir ein mehrfach verzweigtes neuronales Netzwerk vor, bei dem die einzelnen Zweige dazu verpflichtet werden, charakteristische Teile einer Aktion zu erkennen. Auf diese Weise können vollständige Aktionen durch die Fusion der Aktivierungen aus verschiedenen Zweigen lokalisiert werden. Um Aktionen von ihrer umgebenden Kontextinformation zu trennen, generieren wir während des Trainings sogenannte „hard negative“-Beispiele unter der Annahme, dass bewegungslose Videosequenzen unwahrscheinlich als Aktionen zu interpretieren sind. Experimente an den Datensätzen THUMOS'14 und ActivityNet zeigen, dass unser Ansatz state-of-the-art-Methoden übertrifft. Insbesondere wird die durchschnittliche mAP auf ActivityNet v1.2 signifikant von 18,0 % auf 22,4 % verbessert. Der Quellcode wird in Kürze veröffentlicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Komplettitätsmodellierung und Kontexttrennung für schwach überwachte zeitliche Aktionslokalisierung | Paper | HyperAI