HyperAIHyperAI
il y a 18 jours

Segmentation en temps réel robuste des instances vidéo avec des requêtes de suivi

Zitong Zhan, Daniel McKee, Svetlana Lazebnik
Segmentation en temps réel robuste des instances vidéo avec des requêtes de suivi
Résumé

Récemment, les méthodes fondées sur les transformateurs ont obtenu des résultats remarquables en segmentation d’instances vidéo (VIS). Toutefois, la plupart des méthodes les plus performantes fonctionnent de manière hors ligne, en traitant l’intégralité de la séquence vidéo d’un coup afin de prédire les volumes de masques d’instances. Cette approche limite leur capacité à traiter des vidéos longues, telles que celles présentes dans les nouveaux jeux de données exigeants comme UVO et OVIS. Nous proposons un modèle entièrement en ligne basé sur les transformateurs pour la segmentation d’instances vidéo, qui atteint des performances comparables aux meilleures méthodes hors ligne sur le benchmark YouTube-VIS 2019, tout en surpassant significativement celles-ci sur UVO et OVIS. Cette méthode, nommée Robust Online Video Segmentation (ROVIS), étend le modèle de segmentation d’instances d’image Mask2Former en intégrant des « query de suivi » — un mécanisme léger permettant de transmettre l’information de suivi d’une trame à l’autre, initialement introduit par la méthode TrackFormer pour le suivi multi-objets. Nous démontrons que, combinées à une architecture de segmentation d’image suffisamment puissante, les query de suivi peuvent atteindre une précision remarquable, sans être contraintes par la durée des vidéos.