HyperAIHyperAI
vor 13 Tagen

Schwach beschriftete zeitliche Aktionslokalisierung mittels tiefer Metrik-Lernverfahren

Ashraful Islam, Richard J. Radke
Schwach beschriftete zeitliche Aktionslokalisierung mittels tiefer Metrik-Lernverfahren
Abstract

Die zeitliche Aktionslokalisierung ist ein entscheidender Schritt hin zu einem umfassenden Verständnis von Videos. Die meisten aktuellen Methoden zur Aktionslokalisierung basieren auf ungeschnittenen Videos mit vollständigen zeitlichen Annotationen der Aktionsinstanzen. Die Annotation sowohl der Aktionslabels als auch der zeitlichen Grenzen von Videos ist jedoch aufwendig und zeitaufwendig. Um diesem Problem zu begegnen, schlagen wir eine schwach überwachte Methode zur zeitlichen Aktionslokalisierung vor, die während des Trainings lediglich Video-Level-Aktionsinstanzen als Überwachung erfordert. Wir stellen ein Klassifikationsmodul vor, das für jedes Segment im Video Aktionslabels generiert, sowie ein tiefes Metrik-Lernmodul, das die Ähnlichkeit zwischen verschiedenen Aktionsinstanzen lernt. Wir optimieren gemeinsam eine ausgewogene binäre Kreuzentropie-Verlustfunktion und eine Metrik-Verlustfunktion mittels eines herkömmlichen Backpropagation-Algorithmus. Umfangreiche Experimente belegen die Wirksamkeit beider Komponenten bei der zeitlichen Lokalisierung. Wir evaluieren unseren Algorithmus auf zwei anspruchsvollen Datensätzen ungeschnittener Videos: THUMOS14 und ActivityNet1.2. Unsere Methode verbessert das aktuelle Stand der Technik für THUMOS14 um 6,5 % mAP bei einem IoU-Schwellwert von 0,5 und erzielt wettbewerbsfähige Ergebnisse für ActivityNet1.2.

Schwach beschriftete zeitliche Aktionslokalisierung mittels tiefer Metrik-Lernverfahren | Neueste Forschungsarbeiten | HyperAI