MAST : Un suiveur auto-supervisé augmenté par la mémoire

L’intérêt récent porté aux méthodes d’auto-entraînement dense a permis des progrès rapides, mais les performances restent encore très éloignées de celles des méthodes supervisées. Nous proposons un modèle d’entraînement dense entraîné sur des vidéos sans aucune annotation, qui dépasse de manière significative les méthodes auto-entraînées précédentes sur les benchmarks existants (+15 %), tout en atteignant des performances comparables à celles des approches supervisées. Dans cet article, nous réévaluons d’abord les choix classiques utilisés pour l’entraînement auto-entraîné et la fonction de perte de reconstruction grâce à des expériences approfondies, qui permettent finalement d’identifier les meilleures configurations. Ensuite, nous améliorons davantage les méthodes existantes en enrichissant notre architecture d’un composant mémoire essentiel. Enfin, nous proposons une évaluation sur un grand ensemble de données pour la segmentation d’objets vidéo semi-supervisée (aussi appelée suivi dense), et introduisons une nouvelle métrique : la généralisation. Nos deux premières contributions aboutissent à un réseau auto-entraîné qui, pour la première fois, est compétitif avec les méthodes supervisées sur les métriques standard d’évaluation du suivi dense. Lorsqu’on évalue la généralisation, nous montrons que les approches auto-entraînées sont en réalité supérieures à la majorité des méthodes supervisées. Nous pensons que cette nouvelle métrique de généralisation permet de mieux capturer les cas d’usage réels du suivi dense, et devrait stimuler un nouvel intérêt pour cette direction de recherche.