LSMVOS : Correspondance de similarité à court et long terme pour la segmentation d'objets vidéo

Objectif : La segmentation d'objets vidéo semi-supervisée consiste à segmenter l'objet dans les cadres suivants, à partir de l'étiquette de l'objet fournie dans le premier cadre. Les algorithmes existants reposent principalement sur des objectifs de correspondance et des stratégies de propagation, qui exploitent fréquemment le cadre précédent via un masque ou un flux optique. Ce papier explore une nouvelle méthode de propagation, utilisant des modules de correspondance à court terme pour extraire l'information du cadre précédent et la réutiliser dans la propagation. Il propose un réseau appelé LSMOVS (Long-Short-Term Similarity Matching for Video Object Segmentation). Méthode : En effectuant une correspondance au niveau des pixels et une corrélation entre le module de correspondance à long terme et le module de correspondance à court terme, respectivement avec le premier cadre et le cadre précédent, on obtient une carte de similarité globale, une carte de similarité locale, ainsi qu’un motif de caractéristiques du cadre courant et un masque du cadre précédent. Après passage par deux réseaux de raffinement, les résultats finaux sont obtenus via un réseau de segmentation. Résultats : Les expériences menées sur les deux jeux de données DAVIS 2016 et 2017 montrent que la méthode proposée atteint des performances favorables en termes de similarité régionale et de précision du contour, sans ajustement en ligne (online fine-tuning), obtenant respectivement 86,5 % et 77,4 % pour les scènes à un seul objet et à plusieurs objets. De plus, le nombre de cadres segmentés par seconde atteint 21. Conclusion : Le module de correspondance à court terme proposé dans cet article est plus efficace pour extraire l'information du cadre précédent que l'utilisation exclusive du masque. En combinant ce module avec le module de correspondance à long terme, le réseau global permet une segmentation vidéo d'objets efficace sans nécessiter d'ajustement en ligne.