HyperAIHyperAI
vor 9 Tagen

Temporale aggregierte Darstellungen für die Langstrecken-Videobegrenzung

Fadime Sener, Dipika Singhania, Angela Yao
Temporale aggregierte Darstellungen für die Langstrecken-Videobegrenzung
Abstract

Die Vorhersage zukünftiger Ereignisse, insbesondere in langen Videosequenzen, erfordert die Ableitung von Schlussfolgerungen auf Basis aktueller und vergangener Beobachtungen. In dieser Arbeit behandeln wir Fragen der zeitlichen Reichweite, Skalierbarkeit und Ebene der semantischen Abstraktion mittels eines flexiblen, mehrgranularen zeitlichen Aggregationsframeworks. Wir zeigen, dass es möglich ist, sowohl bei der Vorhersage des nächsten Aktionsschritts als auch bei der dichten Vorhersage (dense anticipation) Zustand der Kunst zu erreichen, indem lediglich einfache Techniken wie Max-Pooling und Aufmerksamkeitsmechanismen eingesetzt werden. Um die Vorhersagefähigkeit unseres Modells zu demonstrieren, führen wir Experimente auf den Datensätzen Breakfast, 50Salads und EPIC-Kitchens durch, bei denen wir state-of-the-art Ergebnisse erzielen. Durch minimale Modifikationen lässt sich das Modell zudem problemlos auf die Video-Segmentierung und Aktionserkennung erweitern.

Temporale aggregierte Darstellungen für die Langstrecken-Videobegrenzung | Neueste Forschungsarbeiten | HyperAI