HyperAIHyperAI
vor 2 Monaten

Temporale Erkennung fein granularer Ereignisse in Videos

Hong, James ; Zhang, Haotian ; Gharbi, Michaël ; Fisher, Matthew ; Fatahalian, Kayvon
Temporale Erkennung fein granularer Ereignisse in Videos
Abstract

Wir stellen die Aufgabe der zeitlich präzisen, feingranularen Ereigniserkennung in Videos vor (die genaue Zeitpunktbestimmung, zu der Ereignisse eintreten). Die präzise Erkennung erfordert von Modellen, dass sie sowohl global über die gesamte Zeitspanne von Aktionen nachdenken als auch lokal subtile Unterschiede im Bild- und Bewegungsverlauf zwischen aufeinanderfolgenden Frames identifizieren, um Ereignisse während dieser Aktionen zu erkennen. Überraschenderweise stellen wir fest, dass die besten Lösungen für frühere Video-Verarbeitungsaufgaben wie Aktionserkennung und -segmentierung beide Anforderungen nicht gleichzeitig erfüllen. Als Reaktion darauf schlagen wir E2E-Spot vor, ein kompaktes, von Anfang bis Ende konzipiertes Modell, das bei der präzisen Ereigniserkennung gut abschneidet und sich schnell auf einer einzelnen GPU trainieren lässt. Wir zeigen, dass E2E-Spot erheblich besser abschneidet als kürzlich entwickelte Baseline-Modelle, die aus der Literatur zur Video-Aktionserkennung, -segmentierung und -spotting angepasst wurden. Schließlich tragen wir neue Annotationen und Aufteilungen zu mehreren feingranularen Sportaktion-Datensätzen bei, um diese Datensätze für zukünftige Arbeiten zur präzisen Ereigniserkennung geeignet zu machen.

Temporale Erkennung fein granularer Ereignisse in Videos | Neueste Forschungsarbeiten | HyperAI