Command Palette
Search for a command to run...
Lernen latenter Unterereignisse in Aktivitätsvideos unter Verwendung von zeitbasierten Aufmerksamkeitsfiltern
Lernen latenter Unterereignisse in Aktivitätsvideos unter Verwendung von zeitbasierten Aufmerksamkeitsfiltern
Piergiovanni AJ Fan Chenyou Ryoo Michael S.
Zusammenfassung
In diesem Artikel führen wir erstmals den Begriff der zeitlichen Aufmerksamkeitsfilter ein und beschreiben, wie sie zur Erkennung menschlicher Aktivitäten aus Videos eingesetzt werden können. Viele hochwertige Aktivitäten bestehen häufig aus mehreren zeitlichen Teilen (z. B. Unterereignissen) mit unterschiedlicher Dauer bzw. Geschwindigkeit. Unser Ziel ist es, das Modell explizit dazu zu bringen, solche zeitlichen Strukturen mithilfe mehrerer Aufmerksamkeitsfilter zu lernen und davon zu profitieren. Unsere zeitlichen Filter sind vollständig differenzierbar gestaltet, was eine end-to-end-Training der Filter gemeinsam mit den zugrundeliegenden framebasierten oder segmentbasierten convolutionalen neuronalen Netzwerken ermöglicht. In diesem Beitrag stellen wir einen Ansatz zur Lernung einer Menge optimaler statischer zeitlicher Aufmerksamkeitsfilter vor, die über verschiedene Videos hinweg geteilt werden können. Darüber hinaus erweitern wir diesen Ansatz, um die Aufmerksamkeitsfilter pro Testvideo dynamisch mithilfe rekurrenter Long-Short-Term-Memory-Netzwerke (LSTM) anzupassen. Dadurch können unsere zeitlichen Aufmerksamkeitsfilter latente Unterereignisse spezifisch für jede Aktivität erlernen. Experimentell bestätigen wir, dass der vorgeschlagene Ansatz der zeitlichen Aufmerksamkeitsfilter die Aktivitätserkennung verbessert, und visualisieren die gelernten latenten Unterereignisse.