Segmentation vidéo d'objets évolutif avec mécanisme d'identification

Cet article explore les défis liés à la modélisation multi-objets à la fois évolutive et efficace dans le cadre de la segmentation d’objets vidéo (VOS) en mode semi-supervisé. Les méthodes précédentes de VOS décodaient les caractéristiques à l’aide d’un seul objet positif, ce qui limitait l’apprentissage de représentations multi-objets, car elles devaient correspondre et segmenter chaque cible séparément dans les scénarios à plusieurs objets. En outre, les approches antérieures étaient conçues pour des objectifs d’application spécifiques et manquaient de flexibilité pour s’adapter à différentes contraintes de vitesse-précision. Pour relever ces défis, nous proposons deux approches innovantes : Associating Objects with Transformers (AOT) et Associating Objects with Scalable Transformers (AOST). Dans le but d’obtenir une modélisation multi-objets efficace, AOT introduit un mécanisme d’identification (ID) afin d’attribuer à chaque objet une identité unique. Cette approche permet au réseau de modéliser simultanément les associations entre tous les objets, facilitant ainsi le suivi et la segmentation des objets en une seule passe du réseau. Pour surmonter le problème de déploiement rigide, AOST intègre par ailleurs des transformeurs à mémoire longue-terme évolutifs, qui incorporent une supervision évolutive et un mécanisme d’attention basé sur l’identité (ID) à chaque couche. Cette architecture permet, pour la première fois, une évolutivité en temps réel de l’architecture dans le cadre de la VOS, tout en surmontant les limitations des représentations des embeddings d’identité. Étant donné l’absence d’un benchmark pour la VOS incluant des annotations d’objets denses, nous proposons un nouveau benchmark exigeant, nommé Video Object Segmentation in the Wild (VOSW), afin de valider nos approches. Nous avons évalué diverses variantes d’AOT et d’AOST à l’aide d’expériences étendues sur VOSW et cinq benchmarks classiques de VOS, notamment YouTube-VOS 2018 & 2019 Val, DAVIS-2017 Val & Test, et DAVIS-2016. Nos méthodes surpassent systématiquement les meilleures approches existantes et démontrent une efficacité et une évolutivité exceptionnelles sur l’ensemble des six benchmarks. Page du projet : https://github.com/yoxu515/aot-benchmark.