HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 4 mois

Pyramide Dilatée ConvLSTM Plus Approfondie pour la Détection des Objets Saliants dans les Vidéos

{Kin-Man Lam Jianbing Shen Wenguan Wang Sanyuan Zhao Hongmei Song}

Pyramide Dilatée ConvLSTM Plus Approfondie pour la Détection des Objets Saliants dans les Vidéos

Résumé

Ce papier propose un modèle rapide de détection des objets saillants dans les vidéos, fondé sur une nouvelle architecture de réseau récurrent nommée ConvLSTM bidirectionnel à dilatation pyramidale (PDB-ConvLSTM). Un module de convolution pyramidale dilatée (PDC) est d’abord conçu pour extraire simultanément des caractéristiques spatiales à plusieurs échelles. Ces caractéristiques spatiales sont ensuite concaténées et alimentées dans une version étendue du ConvLSTM bidirectionnel plus profond (DB-ConvLSTM), afin d’apprendre des informations spatio-temporelles. Les unités ConvLSTM avant et arrière sont disposées sur deux couches et connectées de manière en cascade, favorisant ainsi l’échange d’informations entre les deux flux bidirectionnels et permettant une extraction de caractéristiques plus approfondie. Nous améliorons davantage le DB-ConvLSTM en lui intégrant une structure similaire au PDC, en utilisant plusieurs ConvLSTM bidirectionnels dilatés pour extraire des informations spatio-temporelles à plusieurs échelles. Les résultats expérimentaux étendus montrent que notre méthode surpasse de manière significative les modèles précédents de saliency vidéo, tout en atteignant une vitesse en temps réel de 20 fps sur une seule GPU. À titre d’exemple d’application, dans le cadre de la segmentation d’objets vidéo non supervisée, le modèle proposé (avec un post-traitement basé sur un CRF) atteint des résultats de pointe sur deux benchmarks populaires, démontrant ainsi de manière convaincante sa performance supérieure et son haut degré de pertinence pratique.

Benchmarks

BenchmarkMéthodologieMétriques
unsupervised-video-object-segmentation-on-10PDB
F: 74.5
G: 75.9
J: 77.2
unsupervised-video-object-segmentation-on-11PDB
J: 74.0
unsupervised-video-object-segmentation-on-12PDB
J: 65.5
unsupervised-video-object-segmentation-on-4PDB
F-measure (Mean): 57.0
F-measure (Recall): 60.2
Ju0026F: 55.1
Jaccard (Mean): 53.2
Jaccard (Recall): 58.9
unsupervised-video-object-segmentation-on-5PDB
F-measure (Decay): 3.7
F-measure (Mean): 43.0
F-measure (Recall): 44.6
Ju0026F: 40.4
Jaccard (Decay): 4.0
Jaccard (Mean): 37.7
Jaccard (Recall): 42.6
video-salient-object-detection-on-davis-2016PDB
AVERAGE MAE: 0.028
MAX E-MEASURE: 0.951
S-Measure: 0.882
video-salient-object-detection-on-davsodPDB
Average MAE: 0.114
S-Measure: 0.706
max E-Measure: 0.749
max F-Measure: 0.591
video-salient-object-detection-on-davsod-1PDB
Average MAE: 0.132
S-Measure: 0.649
max E-measure: 0.698
video-salient-object-detection-on-davsod-2PDB
Average MAE: 0.107
S-Measure: 0.608
max E-measure: 0.678
video-salient-object-detection-on-fbms-59PDB
AVERAGE MAE: 0.064
MAX F-MEASURE: 0.821
S-Measure: 0.851
video-salient-object-detection-on-mclPDB
AVERAGE MAE: 0.021
MAX E-MEASURE: 0.911
S-Measure: 0.856
video-salient-object-detection-on-segtrack-v2PDB
AVERAGE MAE: 0.024
S-Measure: 0.864
max E-measure: 0.935
video-salient-object-detection-on-uvsdPDB
Average MAE: 0.018
S-Measure: 0.901
max E-measure: 0.975
video-salient-object-detection-on-visalPDB
Average MAE: 0.032
S-Measure: 0.907
max E-measure: 0.846
video-salient-object-detection-on-vos-tPDB
Average MAE: 0.078
S-Measure: 0.818
max E-measure: 0.837

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp