Association d'objets avec des transformateurs pour la segmentation d'objets vidéo

Ce travail examine comment réaliser un apprentissage d'embedding meilleur et plus efficace pour aborder le problème de segmentation d'objets vidéo semi-supervisée dans des scénarios complexes impliquant plusieurs objets. Les méthodes actuelles apprennent à décoder les caractéristiques avec un seul objet positif et doivent donc traiter chaque cible séparément dans des scénarios multi-objets, ce qui consomme plusieurs fois plus de ressources informatiques. Pour résoudre ce problème, nous proposons une approche baptisée « Association d'Objets avec des Transformers » (AOT) permettant de faire correspondre et de décoder uniformément plusieurs objets. Plus précisément, AOT utilise un mécanisme d'identification pour associer plusieurs cibles dans le même espace d'embedding de haute dimension. Ainsi, il est possible de traiter simultanément l'appariement et la décodification de segmentation de plusieurs objets aussi efficacement que pour un seul objet.Pour modéliser suffisamment l'association multi-objet, nous avons conçu un Transformers à long terme et court terme (Long Short-Term Transformer) afin de construire une correspondance hiérarchique et une propagation. Nous avons mené des expériences exhaustives sur des bancs d'essai multi-objets et mono-objet pour évaluer les réseaux AOT variant selon différentes complexités. En particulier, notre variante R50-AOT-L surpasse tous les concurrents de pointe sur trois benchmarks populaires : YouTube-VOS (84,1% J&F), DAVIS 2017 (84,9%) et DAVIS 2016 (91,1%), tout en conservant une vitesse d'exécution multi-objet supérieure à 3 fois celle des autres méthodes. Parallèlement, notre variante AOT-T peut maintenir une vitesse en temps réel pour la segmentation multi-objet sur ces mêmes benchmarks. Grâce à AOT, nous avons remporté la première place du 3ème Défi Large-scale VOS.