L'émergence de l'objectualité : Apprentissage de la segmentation zéro-shot à partir de vidéos

Les humains peuvent facilement segmenter des objets en mouvement sans nécessairement savoir ce qu'ils sont. Cette capacité de l'« objectness » à émerger à partir d'observations visuelles continues nous motive à modéliser simultanément le groupement et le mouvement à partir de vidéos non étiquetées. Notre hypothèse est que dans une vidéo, différentes vues de la même scène sont liées par des composants mobiles, et que la segmentation régionale correcte et le flux régional permettraient la synthèse mutuelle des vues, qui peut être vérifiée directement à partir des données sans aucune supervision externe.Notre modèle commence par deux voies distinctes : une voie d'apparence qui produit une segmentation régionale basée sur les caractéristiques pour une seule image, et une voie de mouvement qui produit des caractéristiques de mouvement pour un couple d'images. Il combine ensuite ces deux voies dans une représentation conjointe appelée « segment flow » (flux de segments) qui agrège les décalages de flux sur chaque région et fournit une caractérisation globale des régions mobiles pour l'ensemble de la scène. En formant le modèle pour minimiser les erreurs de synthèse des vues basées sur le flux de segments, nos voies d'apparence et de mouvement apprennent automatiquement la segmentation régionale et l'estimation du flux, sans avoir recours aux contours ou aux flots optiques de bas niveau respectivement.Notre modèle illustre l'émergence surprenante de l'objectness dans la voie d'apparence, surpassant les travaux antérieurs sur la segmentation d'objets zéro-shot à partir d'une image, la segmentation d'objets en mouvement à partir d'une vidéo avec adaptation non supervisée au moment du test, ainsi que la segmentation sémantique d'images par ajustement fin supervisé. Notre travail est le premier exemple véritablement end-to-end de segmentation d'objets zéro-shot à partir de vidéos. Il ne se contente pas de développer une objectness générique pour la segmentation et le suivi, mais il dépasse également les méthodes courantes d'apprentissage contrastif basées sur les images sans ingénierie d'augmentation.