Was erwarten Sie? Vorhersage egozentrischer Aktionen mit Rolling-Unrolling LSTMs und Modalitätsaufmerksamkeit

Die egozentrische Aktionserwartung besteht darin, zu verstehen, mit welchen Objekten die Kameraträger*in in naher Zukunft interagieren und welche Aktionen sie ausführen wird. Wir greifen dieses Problem mit einer Architektur an, die in der Lage ist, Aktionen auf mehreren zeitlichen Skalen vorherzusagen, indem wir zwei LSTMs verwenden, um 1) die Vergangenheit zusammenzufassen und 2) Vorhersagen über die Zukunft zu formulieren. Das Eingabevideo wird unter Berücksichtigung von drei ergänzenden Modalitäten verarbeitet: Erscheinungsbild (RGB), Bewegung (optischer Fluss) und Objekte (objektbasierte Merkmale). Modalspezifische Vorhersagen werden mithilfe eines neuartigen Modalitäts-Aufmerksamkeitsmechanismus (Modality ATTention, MATT) fusioniert, der lernt, die Modalitäten auf adaptive Weise zu gewichten. Ausführliche Evaluierungen an zwei großen Benchmark-Datensätzen zeigen, dass unsere Methode das bisherige Stand der Technik bei bis zu +7 % auf dem anspruchsvollen EPIC-Kitchens-Datensatz übertreffen kann, der mehr als 2500 Aktionen umfasst, und sich auch auf EGTEA Gaze+ generalisieren lässt. Unser Ansatz erweist sich zudem als übertragbar auf die Aufgaben der frühen Aktionserkennung und der allgemeinen Aktionserkennung. Unsere Methode führt in der öffentlichen Rangliste des EPIC-Kitchens-Egozentrischen-Aktionsvorhersage-Challenges 2019 den ersten Platz ein. Bitte besuchen Sie unsere Webseiten für Code und Beispiele: http://iplab.dmi.unict.it/rulstm - https://github.com/fpv-iplab/rulstm.