HyperAIHyperAI

Command Palette

Search for a command to run...

ReferDINO : Segmentation d'objets vidéo par référence avec des fondements de localisation visuelle

Tianming Liang Kun-Yu Lin Chaolei Tan Jianguo Zhang Wei-Shi Zheng Jian-Fang Hu

Résumé

La segmentation d'objets par référence vidéo (RVOS) vise à segmenter les objets cibles tout au long d'une vidéo en se basant sur une description textuelle. Malgré des progrès notables ces dernières années, les modèles de RVOS actuels peinent encore à gérer des descriptions d'objets complexes en raison de leur compréhension limitée du langage et de la vidéo. Pour remédier à cette limitation, nous présentons ReferDINO, un modèle de RVOS intégré bout-à-bout qui hérite d'une forte compréhension vision-langage des modèles préentraînés de localisation visuelle et qui est doté d'une compréhension temporelle efficace et de capacités de segmentation d'objets. Dans ReferDINO, nous contribuons trois innovations techniques pour adapter efficacement les modèles fondamentaux à la RVOS : 1) un améliorateur temporel cohérent avec l'objet qui exploite les représentations préentraînées texte-objet pour renforcer la compréhension temporelle et la cohérence des objets ; 2) un décodeur de masques déformables guidé par la localisation qui intègre les conditions textuelles et de localisation pour générer des masques d'objets précis ; 3) une stratégie de réduction des requêtes basée sur la confiance qui améliore considérablement l'efficacité du décodage des objets sans compromettre les performances. Nous menons des expériences approfondies sur cinq benchmarks publics de RVOS pour démontrer que notre ReferDINO proposé surpasse significativement les méthodes de pointe actuelles. Page du projet : \url{https://isee-laboratory.github.io/ReferDINO}


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
ReferDINO : Segmentation d'objets vidéo par référence avec des fondements de localisation visuelle | Articles | HyperAI