HyperAIHyperAI
il y a 11 jours

Suivi avec raisonnement basé sur l'intention humaine

Jiawen Zhu, Zhi-Qi Cheng, Jun-Yan He, Chenyang Li, Bin Luo, Huchuan Lu, Yifeng Geng, Xuansong Xie
Suivi avec raisonnement basé sur l'intention humaine
Résumé

Les progrès réalisés dans la modélisation de la perception ont considérablement amélioré les performances du suivi d’objets. Toutefois, les méthodes actuelles pour spécifier l’objet cible dans la première trame reposent soit sur l’utilisation d’un cadre (bounding box) ou d’un masque prédéfini, soit sur une description linguistique explicite. Ces approches sont fastidieuses et ne permettent pas au suiveur de développer une capacité d’auto-raisonnement. Dans ce cadre, ce travail propose une nouvelle tâche de suivi — le suivi par instruction — qui consiste à fournir des instructions implicites de suivi, exigeant que le système réalise automatiquement le suivi dans les trames vidéo. Pour atteindre cet objectif, nous explorons l’intégration des capacités de connaissance et de raisonnement provenant d’un Grand Modèle Vision-Langage (LVLM) dans le cadre du suivi d’objets. Plus précisément, nous proposons un suiveur appelé TrackGPT, capable d’effectuer un suivi fondé sur un raisonnement complexe. TrackGPT utilise d’abord un LVLM pour comprendre les instructions de suivi et condenser les indices relatifs à l’objet à suivre en des embeddings de référence. Le composant de perception utilise ensuite ces embeddings pour générer les résultats de suivi. Pour évaluer les performances de TrackGPT, nous avons construit un benchmark de suivi par instruction appelé InsTrack, comprenant plus de mille paires instruction-vidéo destinées à l’entraînement et à l’évaluation. Les expériences montrent que TrackGPT atteint des performances compétitives sur des benchmarks de segmentation d’objets vidéo par référence, notamment un nouveau record mondial de 66,5 $\mathcal{J}\&\mathcal{F}$ sur Refer-DAVIS. Il démontre également une performance supérieure dans le suivi par instruction selon de nouveaux protocoles d’évaluation. Le code et les modèles sont disponibles à l’adresse suivante : \href{https://github.com/jiawen-zhu/TrackGPT}{https://github.com/jiawen-zhu/TrackGPT}.

Suivi avec raisonnement basé sur l'intention humaine | Articles de recherche récents | HyperAI