Fondement de l'emploi des convolutions 3D pour la segmentation d'objets dans les vidéos

La tâche de segmentation d'objets dans les vidéos est généralement traitée en traitant séparément les informations d'apparence et de mouvement à l'aide de réseaux convolutionnels 2D standards, suivies d'une fusion apprise des deux sources d'information. En revanche, les réseaux convolutionnels 3D ont été efficacement appliqués aux tâches de classification vidéo, mais n'ont pas été aussi pleinement exploités pour des problèmes nécessitant une interprétation dense au niveau de chaque pixel, comparativement à leurs homologues 2D, et se situent en arrière-plan en termes de performance. Dans ce travail, nous démontrons qu'il est possible d'appliquer efficacement les réseaux CNN 3D aux tâches de prédiction dense vidéo, telles que la segmentation d'objets saillants. Nous proposons une architecture de réseau encodeur-décodeur simple mais efficace, entièrement basée sur des convolutions 3D, pouvant être entraînée de manière end-to-end à l'aide d'une perte d'entropie croisée standard. À cette fin, nous utilisons un encodeur 3D efficace et proposons une nouvelle architecture de décodeur comprenant des couches de convolution globale 3D innovantes ainsi que des modules de raffinement 3D. Notre approche dépasse largement les états de l'art existants sur les benchmarks DAVIS'16 (non supervisé), FBMS et ViSal, tout en étant plus rapide, ce qui démontre que notre architecture peut apprendre efficacement des caractéristiques spatio-temporelles expressives et produire des masques de segmentation vidéo de haute qualité. Nous mettons à disposition publiquement notre code ainsi que les modèles entraînés à l'adresse suivante : https://github.com/sabarim/3DC-Seg.