HyperAIHyperAI
il y a 11 jours

Apprentissage inductif et transductif conjoints pour la segmentation d'objets vidéo

Yunyao Mao, Ning Wang, Wengang Zhou, Houqiang Li
Apprentissage inductif et transductif conjoints pour la segmentation d'objets vidéo
Résumé

La segmentation d'objets vidéo semi-supervisée est une tâche consistant à segmenter un objet cible dans une séquence vidéo, à partir d'une seule annotation de masque fournie dans la première image. L'information limitée disponible rend cette tâche extrêmement difficile. La plupart des méthodes les plus performantes précédemment proposées reposent sur un raisonnement transductif basé sur l'appariement ou un apprentissage inductif en ligne. Toutefois, ces approches sont soit moins discriminantes face à des instances similaires, soit insuffisantes dans l'exploitation des informations spatio-temporelles. Dans ce travail, nous proposons d'intégrer l'apprentissage transductif et inductif dans un cadre unifié afin d'exploiter leur complémentarité pour une segmentation d'objets vidéo précise et robuste. L'approche proposée se compose de deux branches fonctionnelles. La branche transductive utilise une architecture de transformer légère pour agréger des indices spatio-temporels riches, tandis que la branche inductive réalise un apprentissage inductif en ligne afin d'obtenir des informations discriminantes sur l'objet cible. Pour relier ces deux branches distinctes, nous introduisons un encodeur de labels à deux têtes, conçu pour apprendre un préalable cible adapté à chacune d'elles. Les encodages de masques ainsi générés sont ensuite contraints d’être désenchevêtrés, afin de préserver efficacement leur complémentarité. Des expériences étendues sur plusieurs benchmarks courants montrent que, sans nécessiter de données d’entraînement synthétiques, la méthode proposée établit une série de nouveaux records d’état de l’art. Le code est disponible à l’adresse suivante : https://github.com/maoyunyao/JOINT.

Apprentissage inductif et transductif conjoints pour la segmentation d'objets vidéo | Articles de recherche récents | HyperAI