R-C3D: Regionale Faltungsnetzwerke für die zeitliche Aktivitätsdetektion

Wir behandeln das Problem der Aktivitätsdetektion in kontinuierlichen, unbeschnittenen Videoströmen. Dies ist eine schwierige Aufgabe, die das Extrahieren von sinnvollen räumlich-zeitlichen Merkmalen erfordert, um Aktivitäten zu erfassen und deren Anfangs- und Endzeiten präzise zu lokalisieren. Wir stellen ein neues Modell vor, das Region Convolutional 3D Network (R-C3D) genannt wird. Dieses Modell kodiert die Videoströme mit einem dreidimensionalen vollständig konvolutionellen Netzwerk, generiert dann Kandidaten für zeitliche Regionen, die Aktivitäten enthalten, und klassifiziert schließlich ausgewählte Regionen in spezifische Aktivitäten. Durch das Teilen von konvolutionellen Merkmalen zwischen den Vorschlags- und Klassifikationspipelines wird Rechenleistung gespart. Das gesamte Modell wird von Anfang bis Ende trainiert, wobei die Lokalisierungs- und Klassifikationsverluste gemeinsam optimiert werden. R-C3D ist schneller als bestehende Methoden (569 Frames pro Sekunde auf einer einzelnen Titan X Maxwell GPU) und erreicht Stand-des-Wissens-Ergebnisse auf THUMOS'14. Wir zeigen zudem, dass unser Modell ein allgemeines Rahmenwerk für die Aktivitätsdetektion ist, das nicht von Annahmen über bestimmte Eigenschaften eines Datensatzes abhängt, indem wir unsere Methode an ActivityNet und Charades evaluieren. Unser Code ist unter http://ai.bu.edu/r-c3d/ verfügbar.