HyperAIHyperAI

Command Palette

Search for a command to run...

Segmentation en temps réel robuste des instances vidéo avec des requêtes de suivi

Zitong Zhan Daniel McKee Svetlana Lazebnik

Résumé

Récemment, les méthodes fondées sur les transformateurs ont obtenu des résultats remarquables en segmentation d’instances vidéo (VIS). Toutefois, la plupart des méthodes les plus performantes fonctionnent de manière hors ligne, en traitant l’intégralité de la séquence vidéo d’un coup afin de prédire les volumes de masques d’instances. Cette approche limite leur capacité à traiter des vidéos longues, telles que celles présentes dans les nouveaux jeux de données exigeants comme UVO et OVIS. Nous proposons un modèle entièrement en ligne basé sur les transformateurs pour la segmentation d’instances vidéo, qui atteint des performances comparables aux meilleures méthodes hors ligne sur le benchmark YouTube-VIS 2019, tout en surpassant significativement celles-ci sur UVO et OVIS. Cette méthode, nommée Robust Online Video Segmentation (ROVIS), étend le modèle de segmentation d’instances d’image Mask2Former en intégrant des « query de suivi » — un mécanisme léger permettant de transmettre l’information de suivi d’une trame à l’autre, initialement introduit par la méthode TrackFormer pour le suivi multi-objets. Nous démontrons que, combinées à une architecture de segmentation d’image suffisamment puissante, les query de suivi peuvent atteindre une précision remarquable, sans être contraintes par la durée des vidéos.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp