HyperAIHyperAI

Command Palette

Search for a command to run...

End-to-End-Lernen der Aktionserkennung aus Bildausschnitten in Videos

Serena Yeung Olga Russakovsky Greg Mori Li Fei-Fei

Zusammenfassung

In dieser Arbeit stellen wir einen vollständig end-to-end Ansatz zur Aktionserkennung in Videos vor, der direkt die zeitlichen Grenzen von Aktionen vorhersagt. Unsere Intuition ist, dass der Prozess der Aktionserkennung natürlich ein Prozess des Beobachtens und Verfeinerens ist: Video-Momente beobachten und Hypothesen darüber verfeinern, wann eine Aktion stattfindet. Aufgrund dieses Erkenntnisses formulieren wir unser Modell als einen rekurrenten neuronalen Netzwerk-basierten Agenten, der im Laufe der Zeit mit einem Video interagiert. Der Agent beobachtet Videoframes und entscheidet sowohl, wo er als Nächstes hinschauen soll, als auch, wann er eine Vorhersage abgibt. Da Backpropagation in diesem nicht-differenzierbaren Szenario nicht ausreichend ist, verwenden wir REINFORCE, um die Entscheidungsstrategie des Agenten zu lernen. Unser Modell erreicht state-of-the-art Ergebnisse auf den Datensätzen THUMOS'14 und ActivityNet, während es nur einen Bruchteil (2% oder weniger) der Videoframes betrachtet.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp