MobileVOS : Segmentation d'objets vidéo en temps réel - L'apprentissage par contraste rencontre la distillation de connaissances

Ce document aborde le problème de la segmentation d'objets vidéo semi-supervisée sur des appareils à ressources limitées, tels que les téléphones mobiles. Nous formulons ce problème comme une tâche de distillation, dans laquelle nous démontrons que des réseaux spatio-temporels à mémoire finie peuvent obtenir des résultats compétitifs par rapport à l'état de l'art, mais avec un coût computationnel beaucoup plus faible (32 millisecondes par image sur un Samsung Galaxy S22). Plus précisément, nous proposons un cadre théoriquement fondé qui unifie l'apprentissage par distillation et l'apprentissage supervisé par représentation contrastive. Ces modèles sont capables de tirer parti conjointement de l'apprentissage contrastif au niveau des pixels et de la distillation d'un modèle pré-entraîné. Nous validons cette fonction de perte en obtenant des scores J&F compétitifs par rapport à l'état de l'art sur les benchmarks standards DAVIS et YouTube, malgré une vitesse d'exécution jusqu'à 5 fois supérieure et un nombre de paramètres 32 fois inférieur.