HyperAIHyperAI
vor 2 Monaten

End-to-End-Lernen der Aktionserkennung aus Bildausschnitten in Videos

Serena Yeung; Olga Russakovsky; Greg Mori; Li Fei-Fei
End-to-End-Lernen der Aktionserkennung aus Bildausschnitten in Videos
Abstract

In dieser Arbeit stellen wir einen vollständig end-to-end Ansatz zur Aktionserkennung in Videos vor, der direkt die zeitlichen Grenzen von Aktionen vorhersagt. Unsere Intuition ist, dass der Prozess der Aktionserkennung natürlich ein Prozess des Beobachtens und Verfeinerens ist: Video-Momente beobachten und Hypothesen darüber verfeinern, wann eine Aktion stattfindet. Aufgrund dieses Erkenntnisses formulieren wir unser Modell als einen rekurrenten neuronalen Netzwerk-basierten Agenten, der im Laufe der Zeit mit einem Video interagiert. Der Agent beobachtet Videoframes und entscheidet sowohl, wo er als Nächstes hinschauen soll, als auch, wann er eine Vorhersage abgibt. Da Backpropagation in diesem nicht-differenzierbaren Szenario nicht ausreichend ist, verwenden wir REINFORCE, um die Entscheidungsstrategie des Agenten zu lernen. Unser Modell erreicht state-of-the-art Ergebnisse auf den Datensätzen THUMOS'14 und ActivityNet, während es nur einen Bruchteil (2% oder weniger) der Videoframes betrachtet.

End-to-End-Lernen der Aktionserkennung aus Bildausschnitten in Videos | Neueste Forschungsarbeiten | HyperAI