HyperAIHyperAI

Command Palette

Search for a command to run...

DVIS++ : Cadre amélioré découplé pour la segmentation universelle des vidéos

Tao Zhang Xingye Tian Yikang Zhou Shunping Ji Xuebo Wang Xin Tao Yuan Zhang Pengfei Wan Zhongyuan Wang Yu Wu

Résumé

Nous présentons le cadre de \textbf{D}ésegmentation \textbf{VI}déo \textbf{S}éparée (DVIS), une nouvelle approche pour la tâche ardue de la segmentation universelle des vidéos, incluant la segmentation d'instances vidéo (VIS), la segmentation sémantique vidéo (VSS) et la segmentation panoramique vidéo (VPS). Contrairement aux méthodes précédentes qui modélisent la segmentation vidéo de manière end-to-end, notre approche sépare la segmentation vidéo en trois sous-tâches en cascade : segmentation, suivi et affinement. Ce design de séparation permet une modélisation plus simple et efficace des représentations spatio-temporelles des objets, en particulier dans des scènes complexes et des vidéos longues. En conséquence, nous introduisons deux nouveaux composants : le traceur référentiel et l'affineur temporel. Ces composants suivent les objets image par image et modélisent les représentations spatio-temporelles basées sur des caractéristiques pré-alignées. Pour améliorer les capacités de suivi de DVIS, nous proposons une stratégie d'entraînement débruitante et introduisons l'apprentissage par contraste, aboutissant à un cadre plus robuste nommé DVIS++. De plus, nous évaluons DVIS++ dans diverses configurations, y compris avec un vocabulaire ouvert et en utilisant une tronçonneuse pré-entraînée figée. En intégrant CLIP à DVIS++, nous présentons OV-DVIS++, le premier cadre de segmentation universelle vidéo à vocabulaire ouvert. Nous menons des expériences exhaustives sur six benchmarks principaux, incluant les jeux de données VIS, VSS et VPS. Grâce à une architecture unifiée, DVIS++ dépasse significativement les méthodes spécialisées de pointe sur ces benchmarks dans les configurations à vocabulaire fermé comme ouvert. Code :~\url{https://github.com/zhang-tao-whu/DVIS_Plus}.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
DVIS++ : Cadre amélioré découplé pour la segmentation universelle des vidéos | Articles | HyperAI