HyperAIHyperAI

Command Palette

Search for a command to run...

Suivi avec raisonnement basé sur l'intention humaine

Jiawen Zhu Zhi-Qi Cheng Jun-Yan He Chenyang Li Bin Luo Huchuan Lu Yifeng Geng Xuansong Xie

Résumé

Les progrès réalisés dans la modélisation de la perception ont considérablement amélioré les performances du suivi d’objets. Toutefois, les méthodes actuelles pour spécifier l’objet cible dans la première trame reposent soit sur l’utilisation d’un cadre (bounding box) ou d’un masque prédéfini, soit sur une description linguistique explicite. Ces approches sont fastidieuses et ne permettent pas au suiveur de développer une capacité d’auto-raisonnement. Dans ce cadre, ce travail propose une nouvelle tâche de suivi — le suivi par instruction — qui consiste à fournir des instructions implicites de suivi, exigeant que le système réalise automatiquement le suivi dans les trames vidéo. Pour atteindre cet objectif, nous explorons l’intégration des capacités de connaissance et de raisonnement provenant d’un Grand Modèle Vision-Langage (LVLM) dans le cadre du suivi d’objets. Plus précisément, nous proposons un suiveur appelé TrackGPT, capable d’effectuer un suivi fondé sur un raisonnement complexe. TrackGPT utilise d’abord un LVLM pour comprendre les instructions de suivi et condenser les indices relatifs à l’objet à suivre en des embeddings de référence. Le composant de perception utilise ensuite ces embeddings pour générer les résultats de suivi. Pour évaluer les performances de TrackGPT, nous avons construit un benchmark de suivi par instruction appelé InsTrack, comprenant plus de mille paires instruction-vidéo destinées à l’entraînement et à l’évaluation. Les expériences montrent que TrackGPT atteint des performances compétitives sur des benchmarks de segmentation d’objets vidéo par référence, notamment un nouveau record mondial de 66,5 J&F\mathcal{J}\&\mathcal{F}J&F sur Refer-DAVIS. Il démontre également une performance supérieure dans le suivi par instruction selon de nouveaux protocoles d’évaluation. Le code et les modèles sont disponibles à l’adresse suivante : \href{https://github.com/jiawen-zhu/TrackGPT}{https://github.com/jiawen-zhu/TrackGPT}.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp