HyperAIHyperAI
vor 9 Tagen

Rolling-Unrolling LSTMs zur Handlungsprognose aus First-Person-Video

Antonino Furnari, Giovanni Maria Farinella
Rolling-Unrolling LSTMs zur Handlungsprognose aus First-Person-Video
Abstract

In diesem Paper behandeln wir das Problem der egozentrischen Aktionsvorhersage, d. h. die Vorhersage, welche Aktionen der Träger der Kamera in naher Zukunft ausführen wird und mit welchen Objekten er interagieren wird. Insbesondere tragen wir Rolling-Unrolling LSTM (RULSTM) vor, eine Lernarchitektur zur Vorhersage von Aktionen aus egozentrischen Videos. Die Methode basiert auf drei Komponenten: 1) einer Architektur aus zwei LSTMs zur Modellierung der Teilaspekte der Zusammenfassung der Vergangenheit und der Inferenz der Zukunft, 2) einer Sequence Completion Pre-Training-Technik, die die LSTMs dazu anregt, sich auf die verschiedenen Teilaspekte zu konzentrieren, und 3) einem Modality ATTention (MATT)-Mechanismus zur effizienten Fusionsmulti-modaler Vorhersagen, die durch die Verarbeitung von RGB-Bildern, optischen Flussfeldern und objektbasierten Merkmalen erzeugt werden. Der vorgeschlagene Ansatz wird anhand der Datensätze EPIC-Kitchens, EGTEA Gaze+ und ActivityNet evaluiert. Die Experimente zeigen, dass die vorgeschlagene Architektur den Stand der Technik im Bereich egozentrischer Videos erreicht und bei der 2019er EPIC-Kitchens-Aktionsvorhersage-Challenge die besten Ergebnisse erzielt. Zudem erzielt der Ansatz wettbewerbsfähige Leistungen auf ActivityNet im Vergleich zu Methoden, die nicht auf unüberwachtem Pre-Training basieren, und generalisiert auf die Aufgaben der frühen Aktionserkennung und der Aktionserkennung. Um die Forschung zu diesem anspruchsvollen Thema zu fördern, stellen wir unseren Quellcode, die trainierten Modelle sowie die vorab extrahierten Merkmale auf unserer Webseite zur Verfügung: http://iplab.dmi.unict.it/rulstm.