Lernen von räumlich-zeitlichen Merkmalen mit 3D-Faltungsnetzwerken

Wir schlagen einen einfachen, aber effektiven Ansatz für die Lernung von räumlich-zeitlichen Merkmalen mithilfe tiefer dreidimensionaler Faltungsnetze (3D ConvNets) vor, die auf einem umfangreichen überwachten Videodatensatz trainiert wurden. Unsere Erkenntnisse sind dreifach:3D ConvNets eignen sich besser für die Lernung von räumlich-zeitlichen Merkmalen als 2D ConvNets;Eine homogene Architektur mit kleinen 3x3x3-Faltungskernen in allen Schichten gehört zu den besten Architekturen für 3D ConvNets;Unsere gelernten Merkmale, insbesondere C3D (Convolutional 3D), übertreffen mit einem einfachen linearen Klassifikator die derzeit besten Methoden in vier verschiedenen Benchmarks und sind vergleichbar mit den aktuellen besten Methoden in zwei weiteren Benchmarks.Zusätzlich sind die Merkmale kompakt: Sie erreichen eine Genauigkeit von 52,8 % auf dem UCF101-Datensatz mit nur zehn Dimensionen und können dank der schnellen Inferenz von ConvNets sehr effizient berechnet werden. Schließlich sind sie konzeptuell sehr einfach und leicht zu trainieren und anzuwenden.