Pyramidenförmig dilatierte tiefere ConvLSTM für die Erkennung auffälliger Objekte in Videos

Diese Arbeit stellt ein schnelles Modell zur Erkennung auffälliger Objekte in Videos vor, basierend auf einer neuartigen rekurrenten Netzarchitektur namens Pyramid Dilated Bidirectional ConvLSTM (PDB-ConvLSTM). Zunächst wird ein Pyramid Dilated Convolution (PDC)-Modul entworfen, um räumliche Merkmale auf mehreren Skalen gleichzeitig zu extrahieren. Diese räumlichen Merkmale werden anschließend zusammengefügt und in eine erweiterte tiefere bidirektionale ConvLSTM (DB-ConvLSTM) eingespeist, um spatiotemporale Informationen zu lernen. Forward- und Rückwärts-ConvLSTM-Einheiten sind in zwei Schichten angeordnet und kaskadenartig miteinander verbunden, wodurch der Informationsfluss zwischen den bidirektionalen Strömen gefördert und eine tiefere Merkmalsextraktion ermöglicht wird. Zusätzlich wird die DB-ConvLSTM durch eine PDC-ähnliche Struktur erweitert, indem mehrere dilatierte DB-ConvLSTMs eingesetzt werden, um multiskalare spatiotemporale Informationen zu erfassen. Umfangreiche experimentelle Ergebnisse zeigen, dass unser Ansatz die vorherigen Modelle zur Video-Saliency-Erkennung mit großem Abstand übertrifft und dabei eine Echtzeitgeschwindigkeit von 20 fps auf einer einzigen GPU erreicht. Anhand der Anwendungsaufgabe der unsupervisierten Video-Objektsegmentierung (mit einer CRF-basierten Nachbearbeitung) erzielt das vorgeschlagene Modell state-of-the-art Ergebnisse auf zwei etablierten Benchmarks und demonstriert damit seine herausragende Leistungsfähigkeit und hohe Anwendbarkeit.