RED: Verstärkte Encoder-Decoder-Netzwerke für die Vorhersage von Aktionen

Die Vorhersage von Aktionen (Action Anticipation) zielt darauf ab, eine Aktion vor ihrem Auftreten zu erkennen. Viele Anwendungen in der Robotik und Überwachung sind mit dieser vorhersagenden Fähigkeit verbunden. Aktuelle Methoden lösen dieses Problem, indem sie zunächst visuelle Darstellungen zukünftiger Frames voraussehen und dann diese erwarteten Darstellungen in Aktionen kategorisieren. Allerdings basiert die Vorhersage auf der Darstellung eines einzelnen vergangenen Frames, was den historischen Trend ignoriert. Zudem kann sie nur eine feste Zukunftsvorhersage treffen. Wir schlagen ein verstärktes Enkoder-Dekoder-Netzwerk (Reinforced Encoder-Decoder, RED) für die Vorhersage von Aktionen vor. RED nimmt mehrere historische Darstellungen als Eingabe entgegen und lernt, eine Folge zukünftiger Darstellungen zu voraussehen. Ein auffälliges Merkmal von RED ist, dass ein Verstärkungsmodul verwendet wird, um sequenzbasierte Überwachung bereitzustellen; die Belohnungsfunktion ist so gestaltet, dass das System angeregt wird, möglichst früh korrekte Vorhersagen zu treffen. Wir testen RED auf den Datensätzen TVSeries, THUMOS-14 und TV-Human-Interaction zur Vorhersage von Aktionen und erreichen auf allen Datensätzen den aktuellen Stand der Technik (state-of-the-art performance).