Ein Argument für 3D-Faltungen zur Objektsegmentierung in Videos

Die Aufgabe der Objektsegmentierung in Videos wird üblicherweise durch die getrennte Verarbeitung von Erscheinungs- und Bewegungsinformationen mittels herkömmlicher 2D-Faltungsnetzwerke gelöst, gefolgt von einer gelernten Fusion beider Informationsquellen. Im Gegensatz dazu wurden 3D-Faltungsnetzwerke erfolgreich für Aufgaben der Videoklassifikation eingesetzt, konnten jedoch im Vergleich zu ihren 2D-Entsprechungen nicht so effektiv für Probleme mit dichter, pixelgenauer Interpretation von Videos genutzt werden und erreichen in Bezug auf die Leistungsfähigkeit hinter den oben genannten Netzwerken zurück. In dieser Arbeit zeigen wir, dass 3D-CNNs effektiv für dichte Video-Vorhersageaufgaben wie die auffällige Objektsegmentierung eingesetzt werden können. Wir stellen eine einfache, jedoch leistungsfähige Encoder-Decoder-Architektur vor, die vollständig aus 3D-Faltungen besteht und end-to-end mit einer standardmäßigen Kreuzentropie-Verlustfunktion trainiert werden kann. Hierzu nutzen wir einen effizienten 3D-Encoder und schlagen eine neue 3D-Decoder-Architektur vor, die neuartige 3D-Global-Convolution-Schichten und 3D-Refinement-Module umfasst. Unser Ansatz übertrifft bestehende State-of-the-Art-Methoden deutlich auf den Benchmark-Datensätzen DAVIS’16 Unsupervised, FBMS und ViSal und ist zudem schneller, was zeigt, dass unsere Architektur effizient expressive räumlich-zeitliche Merkmale lernen und hochwertige Segmentierungsmasken für Videos erzeugen kann. Wir haben unseren Code sowie die trainierten Modelle öffentlich unter https://github.com/sabarim/3DC-Seg zur Verfügung gestellt.