HyperAIHyperAI

Command Palette

Search for a command to run...

vor 4 Monaten

Pyramidenförmig dilatierte tiefere ConvLSTM für die Erkennung auffälliger Objekte in Videos

{Kin-Man Lam Jianbing Shen Wenguan Wang Sanyuan Zhao Hongmei Song}

Pyramidenförmig dilatierte tiefere ConvLSTM für die Erkennung auffälliger Objekte in Videos

Abstract

Diese Arbeit stellt ein schnelles Modell zur Erkennung auffälliger Objekte in Videos vor, basierend auf einer neuartigen rekurrenten Netzarchitektur namens Pyramid Dilated Bidirectional ConvLSTM (PDB-ConvLSTM). Zunächst wird ein Pyramid Dilated Convolution (PDC)-Modul entworfen, um räumliche Merkmale auf mehreren Skalen gleichzeitig zu extrahieren. Diese räumlichen Merkmale werden anschließend zusammengefügt und in eine erweiterte tiefere bidirektionale ConvLSTM (DB-ConvLSTM) eingespeist, um spatiotemporale Informationen zu lernen. Forward- und Rückwärts-ConvLSTM-Einheiten sind in zwei Schichten angeordnet und kaskadenartig miteinander verbunden, wodurch der Informationsfluss zwischen den bidirektionalen Strömen gefördert und eine tiefere Merkmalsextraktion ermöglicht wird. Zusätzlich wird die DB-ConvLSTM durch eine PDC-ähnliche Struktur erweitert, indem mehrere dilatierte DB-ConvLSTMs eingesetzt werden, um multiskalare spatiotemporale Informationen zu erfassen. Umfangreiche experimentelle Ergebnisse zeigen, dass unser Ansatz die vorherigen Modelle zur Video-Saliency-Erkennung mit großem Abstand übertrifft und dabei eine Echtzeitgeschwindigkeit von 20 fps auf einer einzigen GPU erreicht. Anhand der Anwendungsaufgabe der unsupervisierten Video-Objektsegmentierung (mit einer CRF-basierten Nachbearbeitung) erzielt das vorgeschlagene Modell state-of-the-art Ergebnisse auf zwei etablierten Benchmarks und demonstriert damit seine herausragende Leistungsfähigkeit und hohe Anwendbarkeit.

Benchmarks

BenchmarkMethodikMetriken
unsupervised-video-object-segmentation-on-10PDB
F: 74.5
G: 75.9
J: 77.2
unsupervised-video-object-segmentation-on-11PDB
J: 74.0
unsupervised-video-object-segmentation-on-12PDB
J: 65.5
unsupervised-video-object-segmentation-on-4PDB
F-measure (Mean): 57.0
F-measure (Recall): 60.2
Ju0026F: 55.1
Jaccard (Mean): 53.2
Jaccard (Recall): 58.9
unsupervised-video-object-segmentation-on-5PDB
F-measure (Decay): 3.7
F-measure (Mean): 43.0
F-measure (Recall): 44.6
Ju0026F: 40.4
Jaccard (Decay): 4.0
Jaccard (Mean): 37.7
Jaccard (Recall): 42.6
video-salient-object-detection-on-davis-2016PDB
AVERAGE MAE: 0.028
MAX E-MEASURE: 0.951
S-Measure: 0.882
video-salient-object-detection-on-davsodPDB
Average MAE: 0.114
S-Measure: 0.706
max E-Measure: 0.749
max F-Measure: 0.591
video-salient-object-detection-on-davsod-1PDB
Average MAE: 0.132
S-Measure: 0.649
max E-measure: 0.698
video-salient-object-detection-on-davsod-2PDB
Average MAE: 0.107
S-Measure: 0.608
max E-measure: 0.678
video-salient-object-detection-on-fbms-59PDB
AVERAGE MAE: 0.064
MAX F-MEASURE: 0.821
S-Measure: 0.851
video-salient-object-detection-on-mclPDB
AVERAGE MAE: 0.021
MAX E-MEASURE: 0.911
S-Measure: 0.856
video-salient-object-detection-on-segtrack-v2PDB
AVERAGE MAE: 0.024
S-Measure: 0.864
max E-measure: 0.935
video-salient-object-detection-on-uvsdPDB
Average MAE: 0.018
S-Measure: 0.901
max E-measure: 0.975
video-salient-object-detection-on-visalPDB
Average MAE: 0.032
S-Measure: 0.907
max E-measure: 0.846
video-salient-object-detection-on-vos-tPDB
Average MAE: 0.078
S-Measure: 0.818
max E-measure: 0.837

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Pyramidenförmig dilatierte tiefere ConvLSTM für die Erkennung auffälliger Objekte in Videos | Forschungsarbeiten | HyperAI