ReMOTS : Affinage auto-supervisé du suivi et de la segmentation multi-objets

Nous visons à améliorer les performances du suivi et de la segmentation d'objets multiples (MOTS) par raffinement. Cependant, le raffinement des résultats MOTS reste un défi, principalement en raison du fait que les caractéristiques d'apparence ne sont pas adaptées aux vidéos cibles et qu'il est également difficile de trouver des seuils appropriés pour les discriminer. Pour résoudre ce problème, nous proposons un cadre de raffinement MOTS auto-supervisé (ReMOTS). ReMOTS suit principalement quatre étapes pour affiner les résultats MOTS sous l'angle de l'association de données : (1) Entraîner l'encodeur d'apparence en utilisant les masques prédits. (2) Associer les observations entre les trames adjacentes pour former des trajectoires à court terme. (3) Entraîner l'encodeur d'apparence en utilisant des trajectoires à court terme comme étiquettes pseudo-fiables. (4) Fusionner les trajectoires à court terme en trajectoires à long terme en utilisant des caractéristiques d'apparence adoptées et des seuils automatiquement obtenus à partir d'informations statistiques. Grâce à ReMOTS, nous avons obtenu la première place au défi MOTS de CVPR 2020, avec un score sMOTSA de 69,9.