HyperAIHyperAI
vor 2 Monaten

Lernen von latenten Unterereignissen in Aktivitätsvideos mit temporalen Aufmerksamkeitsfiltern

Piergiovanni, AJ ; Fan, Chenyou ; Ryoo, Michael S.
Lernen von latenten Unterereignissen in Aktivitätsvideos mit temporalen Aufmerksamkeitsfiltern
Abstract

In dieser Arbeit führen wir den neuen Begriff der zeitlichen Aufmerksamkeitsfilter ein und beschreiben, wie diese für die Erkennung menschlicher Aktivitäten aus Videos verwendet werden können. Viele hochstufige Aktivitäten bestehen häufig aus mehreren zeitlichen Teilen (z.B. Unterereignissen) mit unterschiedlicher Dauer/Geschwindigkeit, und unser Ziel ist es, das Modell dazu zu befähigen, solche zeitliche Strukturen durch den Einsatz mehrerer Aufmerksamkeitsfilter explizit zu lernen und davon zu profitieren. Unsere zeitlichen Filter sind so konzipiert, dass sie vollständig differenzierbar sind, was eine end-to-end-Ausbildung der zeitlichen Filter zusammen mit den zugrundeliegenden bildbasierten oder segmentbasierten Faltungsneuronalen Netzwerkarchitekturen ermöglicht. Dieses Papier präsentiert einen Ansatz zur Lernung einer Reihe optimaler statischer zeitlicher Aufmerksamkeitsfilter, die in verschiedenen Videos geteilt werden können, und erweitert diesen Ansatz auf die dynamische Anpassung von Aufmerksamkeitsfiltern pro Testvideo unter Verwendung rekurrenter Long Short-Term Memory-Netze (LSTM). Dies ermöglicht es unseren zeitlichen Aufmerksamkeitsfiltern, latente Unterereignisse spezifisch für jede Aktivität zu lernen. Wir bestätigen experimentell, dass das vorgeschlagene Konzept der zeitlichen Aufmerksamkeitsfilter die Aktivitätserkennung verbessert, und visualisieren die gelernten latenten Unterereignisse.

Lernen von latenten Unterereignissen in Aktivitätsvideos mit temporalen Aufmerksamkeitsfiltern | Neueste Forschungsarbeiten | HyperAI