HyperAIHyperAI
il y a 11 jours

Exploration des modèles de diffusion texte-vidéo pré-entraînés pour la segmentation d'objets vidéo par référence

Zixin Zhu, Xuelu Feng, Dongdong Chen, Junsong Yuan, Chunming Qiao, Gang Hua
Exploration des modèles de diffusion texte-vidéo pré-entraînés pour la segmentation d'objets vidéo par référence
Résumé

Dans cet article, nous explorons les représentations visuelles produites par un modèle pré-entraîné de diffusion texte-vidéo (T2V) pour des tâches de compréhension vidéo. Nous supposons que les représentations latentes apprises à partir d’un modèle générateur T2V pré-entraîné encapsulent des sémantiques riches ainsi que des correspondances temporelles cohérentes, ce qui facilite naturellement la compréhension vidéo. Notre hypothèse est validée à travers la tâche classique de segmentation d’objets vidéo par référence (R-VOS). Nous proposons un cadre novateur, nommé « VD-IT », spécifiquement conçu avec des composants soigneusement élaborés basés sur un modèle T2V pré-entraîné fixe. Plus précisément, VD-IT utilise des informations textuelles comme entrée conditionnelle, garantissant une cohérence sémantique au fil du temps pour une correspondance temporelle précise des instances. Il intègre également des tokens d’image comme entrées textuelles supplémentaires, enrichissant ainsi l’ensemble des caractéristiques afin de générer des masques détaillés et nuancés. En outre, au lieu d’utiliser le bruit gaussien standard, nous proposons de prédire un bruit spécifique à la vidéo à l’aide d’un module additionnel de prédiction de bruit, ce qui permet de préserver la fidélité des caractéristiques et d’améliorer la qualité de segmentation. À travers des expérimentations étendues, nous observons surprenamment que les modèles de diffusion T2V générateurs fixes, contrairement aux arrière-plans vidéo couramment utilisés (tels que Video Swin Transformer) pré-entraînés sur des tâches discriminatives d’images ou de vidéos, présentent un meilleur potentiel pour maintenir l’alignement sémantique et la cohérence temporelle. Sur les benchmarks standards existants, notre méthode VD-IT obtient des résultats très compétitifs, dépassant de nombreux états de l’art existants. Le code est disponible à l’adresse suivante : https://github.com/buxiangzhiren/VD-IT.

Exploration des modèles de diffusion texte-vidéo pré-entraînés pour la segmentation d'objets vidéo par référence | Articles de recherche récents | HyperAI