HyperAIHyperAI
vor 16 Tagen

Multi-shot Temporale Ereignislokalisierung: ein Benchmark

Xiaolong Liu, Yao Hu, Song Bai, Fei Ding, Xiang Bai, Philip H.S. Torr
Multi-shot Temporale Ereignislokalisierung: ein Benchmark
Abstract

Aktuelle Entwicklungen im Bereich der zeitlichen Ereignis- oder Aktionsslokalisierung zielen typischerweise auf Aktionen ab, die von einer einzigen Kamera erfasst wurden. In der realen Welt können jedoch umfangreiche Ereignisse oder Aktionen als Sequenz von Aufnahmeszenen von mehreren Kameras aus unterschiedlichen Positionen erfasst werden. In diesem Paper stellen wir eine neue und herausfordernde Aufgabe vor, die sogenannte „Multi-Shot Temporale Ereignislokalisierung“, und präsentieren entsprechend eine großskalige Datensammlung namens MUlti-Shot EventS (MUSES). MUSES umfasst insgesamt 31.477 Ereignisinstanzen über eine Gesamtdauer von 716 Videostunden. Der zentrale Charakteristikum von MUSES sind häufige Szenenwechsel: Durchschnittlich weisen pro Instanz 19 Szenen und pro Video 176 Szenen auf, was zu erheblichen innerhalb-Instanz-Variationen führt. Unsere umfassenden Evaluierungen zeigen, dass die derzeit beste Methode für die zeitliche Aktionsslokalisierung lediglich eine mAP von 13,1 % bei IoU = 0,5 erreicht. Als Nebenbeitrag stellen wir einen einfachen Baseline-Ansatz zur Bewältigung der innerhalb-Instanz-Variationen vor, der auf MUSES eine mAP von 18,9 % und auf THUMOS14 eine mAP von 56,9 % bei IoU = 0,5 erzielt. Um die Forschung in dieser Richtung zu fördern, stellen wir die Datensammlung sowie den Projektcode unter https://songbai.site/muses/ zur Verfügung.

Multi-shot Temporale Ereignislokalisierung: ein Benchmark | Neueste Forschungsarbeiten | HyperAI