HyperAIHyperAI
vor 2 Monaten

Temporale Zerlegung: Ein vereinheitlichter Ansatz für die Videoanalyse

Dotan Kaufman; Gil Levi; Tal Hassner; Lior Wolf
Temporale Zerlegung: Ein vereinheitlichter Ansatz für die Videoanalyse
Abstract

Wir präsentieren einen allgemeinen Ansatz zur Videoanalyse, der von semantischen Transfermethoden inspiriert ist, die bei der Analyse von 2D-Bildern erfolgreich eingesetzt wurden. Unsere Methode betrachtet ein Video als eine eindimensionale Folge von Clips, wobei jedem Clip seine eigene Semantik zugeordnet ist. Die Art dieser Semantiken – natürlichsprachliche Beschriftungen oder andere Labels – hängt von der jeweiligen Aufgabe ab. Ein Testvideo wird verarbeitet, indem Korrespondenzen zwischen seinen Clips und den Clips von Referenzvideos mit bekannter Semantik hergestellt werden. Anschließend können die Referenzsemantiken auf das Testvideo übertragen werden. Wir beschreiben zwei Matching-Methoden, beide entwickelt, um sicherzustellen, dass (a) die Referenzclips den Testclips ähnlich sind und (b) zusammen genommen die Semantik der ausgewählten Referenzclips konsistent ist und temporale Kohärenz aufrechterhält. Unser Verfahren verwenden wir für die Videobeschriftung am Benchmark LSMDC'16, für die Videosummarisierung an den Benchmarks SumMe und TVSum, für die zeitliche Aktionsdetektion am Benchmark Thumos2014 und für die Klangvorhersage am Benchmark Greatest Hits. Unsere Methode übertrifft nicht nur den aktuellen Stand der Technik in vier von fünf Benchmarks, sondern sie ist auch die einzige einzelne Methode, von der wir wissen, dass sie auf solch vielfältige Aufgabenbereiche erfolgreich angewendet wurde.