Aktionstuben finden

Wir behandeln das Problem der Aktionserkennung in Videos. Angeregt durch die neuesten Fortschritte im Bereich der Objekterkennung aus 2D-Bildern bauen wir Aktionenmodelle unter Verwendung reicher MerkmalsHierarchien, die aus Form- und kinematischen Hinweisen abgeleitet werden. Wir integrieren Erscheinungsbild und Bewegung auf zwei Arten. Erstens wählen wir aus den Bildregionenvorschlägen jene aus, die bewegungsintensiv sind und daher wahrscheinlicher eine Aktion enthalten. Dies führt zu einer erheblichen Reduzierung der Anzahl der zu verarbeitenden Regionen und ermöglicht schnelleren Berechnungen. Zweitens extrahieren wir räumlich-zeitliche Merkmalsrepräsentationen, um starke Klassifikatoren mit Hilfe von Faltungsneuronalen Netzen (Convolutional Neural Networks) zu erstellen. Wir verknüpfen unsere Vorhersagen, um zeitlich konsistente Erkennungen zu erzeugen, die wir als Aktionsröhren bezeichnen. Wir zeigen, dass unser Ansatz bei der Aktionserkennung anderen Techniken überlegen ist.