Apprendre ce qu'il faut apprendre pour la segmentation d'objets dans les vidéos

La segmentation d'objets dans les vidéos (VOS) est un problème extrêmement complexe, car l'objet cible n'est défini qu'à l'inférence avec une masque de référence de la première image. La question de savoir comment capturer et utiliser cette information limitée sur l'objet cible reste une question de recherche fondamentale. Nous abordons ce problème en introduisant une architecture VOS entièrement entraînable par apprentissage qui intègre un module d'apprentissage à partir de peu d'exemples différentiable. Cet apprenant interne est conçu pour prédire un modèle paramétrique puissant de l'objet cible en minimisant une erreur de segmentation dans la première image. Nous allons au-delà des techniques standard d'apprentissage à partir de peu d'exemples en apprenant ce que cet apprenant devrait acquérir. Cela nous permet d'obtenir une représentation interne riche de l'objet cible dans l'image actuelle, augmentant considérablement la précision de notre approche en matière de segmentation. Nous menons des expériences approfondies sur plusieurs benchmarks. Notre approche établit un nouveau niveau d'excellence sur le jeu de données YouTube-VOS 2018 à grande échelle en atteignant un score global de 81,5, ce qui correspond à une amélioration relative de 2,6 % par rapport au meilleur résultat précédent.