HyperAIHyperAI

Command Palette

Search for a command to run...

Inférence visuelle conjointe et suivi avec spécification par langage naturel

Li Zhou Zikun Zhou Kaige Mao Zhenyu He

Résumé

Le suivi par spécification linguistique vise à localiser la cible mentionnée dans une séquence vidéo à partir d'une description linguistique naturelle. Les algorithmes existants résolvent ce problème en deux étapes : l’alignement visuel (visual grounding) et le suivi (tracking), en déployant respectivement un modèle d’alignement visuel et un modèle de suivi. Ce cadre déconnecté néglige toutefois le lien entre l’alignement visuel et le suivi, à savoir que les descriptions linguistiques fournissent des indices sémantiques globaux utiles à la localisation de la cible dans les deux étapes. De plus, un tel cadre déconnecté ne peut être entraîné de manière end-to-end. Pour surmonter ces limitations, nous proposons un cadre conjoint d’alignement visuel et de suivi, qui reformule ces deux tâches comme une seule tâche unifiée : localiser la cible référencée à partir des références visuelles-langagères fournies. Plus précisément, nous introduisons un module de modélisation des relations multi-sources afin de construire efficacement les relations entre les références visuelles-langagères et l’image de test. En outre, nous concevons un module de modélisation temporelle qui fournit des indices temporels guidés par l’information sémantique globale, améliorant ainsi efficacement la capacité de notre modèle à s’adapter aux variations d’apparence de la cible. Les résultats expérimentaux étendus sur les jeux de données TNL2K, LaSOT, OTB99 et RefCOCOg montrent que notre méthode obtient des performances supérieures par rapport aux algorithmes de pointe pour les deux tâches de suivi et d’alignement visuel. Le code est disponible à l’adresse suivante : https://github.com/lizhou-cs/JointNLT.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Inférence visuelle conjointe et suivi avec spécification par langage naturel | Articles | HyperAI