Pyramidenförmig dilatierte tiefere ConvLSTM für die Erkennung auffälliger Objekte in Videos
{Kin-Man Lam Jianbing Shen Wenguan Wang Sanyuan Zhao Hongmei Song}

Abstract
Diese Arbeit stellt ein schnelles Modell zur Erkennung auffälliger Objekte in Videos vor, basierend auf einer neuartigen rekurrenten Netzarchitektur namens Pyramid Dilated Bidirectional ConvLSTM (PDB-ConvLSTM). Zunächst wird ein Pyramid Dilated Convolution (PDC)-Modul entworfen, um räumliche Merkmale auf mehreren Skalen gleichzeitig zu extrahieren. Diese räumlichen Merkmale werden anschließend zusammengefügt und in eine erweiterte tiefere bidirektionale ConvLSTM (DB-ConvLSTM) eingespeist, um spatiotemporale Informationen zu lernen. Forward- und Rückwärts-ConvLSTM-Einheiten sind in zwei Schichten angeordnet und kaskadenartig miteinander verbunden, wodurch der Informationsfluss zwischen den bidirektionalen Strömen gefördert und eine tiefere Merkmalsextraktion ermöglicht wird. Zusätzlich wird die DB-ConvLSTM durch eine PDC-ähnliche Struktur erweitert, indem mehrere dilatierte DB-ConvLSTMs eingesetzt werden, um multiskalare spatiotemporale Informationen zu erfassen. Umfangreiche experimentelle Ergebnisse zeigen, dass unser Ansatz die vorherigen Modelle zur Video-Saliency-Erkennung mit großem Abstand übertrifft und dabei eine Echtzeitgeschwindigkeit von 20 fps auf einer einzigen GPU erreicht. Anhand der Anwendungsaufgabe der unsupervisierten Video-Objektsegmentierung (mit einer CRF-basierten Nachbearbeitung) erzielt das vorgeschlagene Modell state-of-the-art Ergebnisse auf zwei etablierten Benchmarks und demonstriert damit seine herausragende Leistungsfähigkeit und hohe Anwendbarkeit.
Benchmarks
| Benchmark | Methodik | Metriken |
|---|---|---|
| unsupervised-video-object-segmentation-on-10 | PDB | F: 74.5 G: 75.9 J: 77.2 |
| unsupervised-video-object-segmentation-on-11 | PDB | J: 74.0 |
| unsupervised-video-object-segmentation-on-12 | PDB | J: 65.5 |
| unsupervised-video-object-segmentation-on-4 | PDB | F-measure (Mean): 57.0 F-measure (Recall): 60.2 Ju0026F: 55.1 Jaccard (Mean): 53.2 Jaccard (Recall): 58.9 |
| unsupervised-video-object-segmentation-on-5 | PDB | F-measure (Decay): 3.7 F-measure (Mean): 43.0 F-measure (Recall): 44.6 Ju0026F: 40.4 Jaccard (Decay): 4.0 Jaccard (Mean): 37.7 Jaccard (Recall): 42.6 |
| video-salient-object-detection-on-davis-2016 | PDB | AVERAGE MAE: 0.028 MAX E-MEASURE: 0.951 S-Measure: 0.882 |
| video-salient-object-detection-on-davsod | PDB | Average MAE: 0.114 S-Measure: 0.706 max E-Measure: 0.749 max F-Measure: 0.591 |
| video-salient-object-detection-on-davsod-1 | PDB | Average MAE: 0.132 S-Measure: 0.649 max E-measure: 0.698 |
| video-salient-object-detection-on-davsod-2 | PDB | Average MAE: 0.107 S-Measure: 0.608 max E-measure: 0.678 |
| video-salient-object-detection-on-fbms-59 | PDB | AVERAGE MAE: 0.064 MAX F-MEASURE: 0.821 S-Measure: 0.851 |
| video-salient-object-detection-on-mcl | PDB | AVERAGE MAE: 0.021 MAX E-MEASURE: 0.911 S-Measure: 0.856 |
| video-salient-object-detection-on-segtrack-v2 | PDB | AVERAGE MAE: 0.024 S-Measure: 0.864 max E-measure: 0.935 |
| video-salient-object-detection-on-uvsd | PDB | Average MAE: 0.018 S-Measure: 0.901 max E-measure: 0.975 |
| video-salient-object-detection-on-visal | PDB | Average MAE: 0.032 S-Measure: 0.907 max E-measure: 0.846 |
| video-salient-object-detection-on-vos-t | PDB | Average MAE: 0.078 S-Measure: 0.818 max E-measure: 0.837 |
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.