HyperAIHyperAI
il y a 12 jours

Réseau de transport profond pour la segmentation d'objets vidéo non supervisée

{Bo Liu, Qingshan Liu, Dong Liu, Zicheng Zhao, Kaihua Zhang}
Réseau de transport profond pour la segmentation d'objets vidéo non supervisée
Résumé

Les méthodes populaires de segmentation d’objets vidéo non supervisées fusionnent les images RGB et les flux optiques à l’aide d’un réseau à deux voies. Toutefois, ces approches peinent à gérer les bruits perturbateurs présents dans chaque modalité d’entrée, lesquels peuvent fortement dégrader les performances du modèle. Nous proposons d’établir une correspondance entre les modalités d’entrée tout en supprimant les signaux parasites grâce à un alignement structurel optimal. Étant donné une trame vidéo, nous extrayons des caractéristiques locales denses à partir de l’image RGB et du flux optique, que nous considérons comme deux représentations structurées complexes. La distance de Wasserstein est ensuite utilisée pour calculer les flux optimaux globaux permettant de transporter les caractéristiques d’une modalité vers l’autre, la magnitude de chaque flux mesurant ainsi le degré d’alignement entre deux caractéristiques locales. Pour intégrer cet alignement structurel dans un réseau à deux voies afin d’assurer une formation end-to-end, nous factorisons la matrice de coût d’entrée en petits blocs spatiaux et concevons un module différentiable, appelé Sinkhorn à long et court rayon, composé d’une couche Sinkhorn à longue portée et d’une couche Sinkhorn à courte portée. Nous intégrons ce module dans un réseau à deux voies dédié, que nous nommons TransportNet. Nos expériences montrent que l’alignement entre mouvement et apparence permet d’atteindre les meilleurs résultats actuels sur les jeux de données populaires de segmentation d’objets vidéo.