Décalage de l'attention vers la détection des objets saillants vidéo

La dernière décennie a vu une croissance marquée de l'intérêt pour la détection des objets saillants dans les vidéos (VSOD, Video Salient Object Detection). Toutefois, la communauté scientifique manquait depuis longtemps d'un jeu de données VSOD bien établi, représentatif de scènes dynamiques réelles et doté d'annotations de haute qualité. Pour remédier à ce manque, nous avons soigneusement collecté un jeu de données DAVSOD (Densely Annotated VSOD) cohérent avec l'attention visuelle, comprenant 226 vidéos et 23 938 images couvrant une grande diversité de scènes réalistes, d'objets, d'instances et de mouvements. Grâce à des données réelles de fixation oculaire humaine associées, nous avons obtenu des vérités terrain précises. Ce travail constitue la première étude à souligner explicitement le défi du décalage de saillance, c’est-à-dire le fait que l’objet saillant dans une vidéo puisse évoluer de manière dynamique au fil du temps. Afin de fournir à la communauté une référence complète, nous évaluons de manière systématique 17 algorithmes représentatifs de VSOD sur sept jeux de données existants, ainsi que sur notre DAVSOD, totalisant 84 000 images (le plus grand ensemble à ce jour). En utilisant trois métriques célèbres, nous présentons une analyse approfondie et éclairante des performances. En outre, nous proposons un modèle de référence, doté d’un convLSTM sensible au décalage de saillance, capable de capturer efficacement la dynamique de la saillance vidéo en apprenant le comportement humain de déplacement de l’attention. Des expériences étendues ouvrent la voie à des perspectives prometteuses pour le développement et la comparaison future des modèles.