vor 2 Monaten

Röhrenkonvolutionales Neuronales Netzwerk (T-CNN) für die Aktionserkennung in Videos

Rui Hou; Chen Chen; Mubarak Shah

Abstract

Tiefe Lernverfahren haben ausgezeichnete Ergebnisse bei der Bildklassifizierung und Objekterkennung erzielt. Allerdings war deren Einfluss auf die Videanalyse (z.B. Aktionserkennung und -detektion) wegen der Komplexität von Videodaten und dem Mangel an Annotationen begrenzt. Frühere Ansätze zur Aktionsdetektion in Videos, die auf Faltungsneuronalen Netzen (CNN) basieren, bestehen in der Regel aus zwei wesentlichen Schritten: der Detektion von Aktionsvorschlägen auf Bildschirmebene und der Verknüpfung dieser Vorschläge über mehrere Frames hinweg. Diese Methoden verwenden zudem ein zweistromiges CNN-Framework, um räumliche und zeitliche Merkmale getrennt zu verarbeiten. In dieser Arbeit schlagen wir ein end-to-end tiefes Netzwerk namens Tube Convolutional Neural Network (T-CNN) für die Aktionsdetektion in Videos vor. Die vorgeschlagene Architektur ist ein vereintes Netzwerk, das in der Lage ist, Aktionen basierend auf 3D-Faltungsmerkmalsdaten zu erkennen und zu lokalisieren. Ein Video wird zunächst in gleich lange Abschnitte unterteilt, und für jeden Abschnitt werden eine Reihe von Rohr-Vorschlägen (tube proposals) generiert, basierend auf den Merkmalen des 3D Convolutional Networks (ConvNet). Schließlich werden die Rohrvorschläge verschiedener Abschnitte mithilfe eines Netzwerkflusses verbunden, und die spatio-temporale Aktionsdetektion wird mit diesen verlinkten Video-Vorschlägen durchgeführt. Ausführliche Experimente mit mehreren Videodatensätzen zeigen die überlegene Leistungsfähigkeit des T-CNN bei der Klassifizierung und Lokalisierung von Aktionen sowohl in gekürzten als auch ungeschnittenen Videos im Vergleich zu den aktuellen Stand der Technik.