HyperAIHyperAI

Command Palette

Search for a command to run...

Temporale aggregierte Darstellungen für die Langstrecken-Videobegrenzung

Fadime Sener Dipika Singhania Angela Yao

Zusammenfassung

Die Vorhersage zukünftiger Ereignisse, insbesondere in langen Videosequenzen, erfordert die Ableitung von Schlussfolgerungen auf Basis aktueller und vergangener Beobachtungen. In dieser Arbeit behandeln wir Fragen der zeitlichen Reichweite, Skalierbarkeit und Ebene der semantischen Abstraktion mittels eines flexiblen, mehrgranularen zeitlichen Aggregationsframeworks. Wir zeigen, dass es möglich ist, sowohl bei der Vorhersage des nächsten Aktionsschritts als auch bei der dichten Vorhersage (dense anticipation) Zustand der Kunst zu erreichen, indem lediglich einfache Techniken wie Max-Pooling und Aufmerksamkeitsmechanismen eingesetzt werden. Um die Vorhersagefähigkeit unseres Modells zu demonstrieren, führen wir Experimente auf den Datensätzen Breakfast, 50Salads und EPIC-Kitchens durch, bei denen wir state-of-the-art Ergebnisse erzielen. Durch minimale Modifikationen lässt sich das Modell zudem problemlos auf die Video-Segmentierung und Aktionserkennung erweitern.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Temporale aggregierte Darstellungen für die Langstrecken-Videobegrenzung | Paper | HyperAI