HyperAIHyperAI
il y a 11 jours

D2Conv3D : Convolutions dynamiques dilatées pour la segmentation d'objets dans les vidéos

{Bastian Leibe, Sabarinath Mahadevan, Ali Athar, Christian Schmidt}
D2Conv3D : Convolutions dynamiques dilatées pour la segmentation d'objets dans les vidéos
Résumé

Malgré l’attention considérable qu’elle a reçue de la communauté scientifique, la tâche de segmentation et de suivi d’objets dans les vidéos monoculars présente encore de larges perspectives d’amélioration. Les travaux existants ont simultanément démontré l’efficacité des convolutions dilatées et déformables pour diverses tâches de segmentation au niveau de l’image. Cela donne à penser que leurs extensions en 3D devraient également améliorer les performances sur les tâches de segmentation au niveau vidéo. Toutefois, cet aspect n’a pas encore été suffisamment exploré dans la littérature existante. Dans cet article, nous proposons Dynamic Dilated Convolutions (D2Conv3D) : un nouveau type de convolution inspiré des convolutions dilatées et déformables, et étendu au domaine 3D (spatio-temporel). Nous montrons expérimentalement que D2Conv3D peut améliorer les performances de plusieurs architectures de CNN 3D sur diverses benchmarks liées à la segmentation vidéo, simplement en remplaçant les convolutions standards par D2Conv3D sans modification supplémentaire. Nous démontrons également que D2Conv3D surpasse les extensions triviales des convolutions dilatées et déformables existantes au domaine 3D. Enfin, nous établissons un nouveau record sur la benchmark DAVIS 2016 pour la segmentation non supervisée d’objets vidéo. Le code est rendu publiquement disponible à l’adresse suivante : https://github.com/Schmiddo/d2conv3d.

D2Conv3D : Convolutions dynamiques dilatées pour la segmentation d'objets dans les vidéos | Articles de recherche récents | HyperAI