Erscheinungs- und Beziehungsnetze für die Videoklassifizierung

Die räumlich-zeitliche Merkmalslernen in Videos ist ein grundlegendes Problem der Computer Vision. In dieser Arbeit wird eine neue Architektur vorgestellt, die als Erscheinungsbild-und-Beziehungsnetzwerk (Appearance-and-Relation Network, ARTNet) bezeichnet wird, um die Video-Darstellung auf einem end-to-end-Basis zu lernen. ARTNets werden durch das Stapeln mehrerer generischer Bausteine konstruiert, welche als SMART (Separate Modeling of Appearance and Relation) bezeichnet werden und deren Ziel es ist, Erscheinungsbild und Beziehung gleichzeitig aus RGB-Eingaben in einer getrennten und expliziten Weise zu modellieren. Insbesondere entkoppeln SMART-Bausteine den räumlich-zeitlichen Lernmodul in einen Ast für die räumliche Modellierung des Erscheinungsbilds und einen Ast für die zeitliche Modellierung der Beziehungen. Der Erscheinungsbildast basiert auf der linearen Kombination von Pixeln oder Filterantworten in jedem Frame, während der Beziehungsast auf multiplikativen Interaktionen zwischen Pixeln oder Filterantworten über mehrere Frames hinweg ausgelegt ist. Wir führen Experimente auf drei Benchmarks für Aktionserkennung durch: Kinetics, UCF101 und HMDB51, wobei wir zeigen, dass SMART-Bausteine eine deutliche Verbesserung gegenüber 3D-Faltungen beim Lernen von räumlich-zeitlichen Merkmalen erzielen. Unter derselben Trainingskonfiguration erreichen ARTNets eine überlegene Leistung auf diesen drei Datensätzen im Vergleich zu den bisherigen Stand der Technik Methoden.