Exploration de l'information contextuelle améliorée pour le suivi d'objets au niveau vidéo

Les informations contextuelles au niveau de la vidéo sont devenues de plus en plus cruciales pour le suivi d'objets visuels. Cependant, les méthodes existantes utilisent généralement un nombre limité de tokens pour transmettre ces informations, ce qui peut entraîner une perte d'informations et limiter leur capacité à capturer pleinement le contexte. Pour remédier à ce problème, nous proposons un nouveau cadre de suivi d'objets visuels au niveau de la vidéo appelé MCITrack. Ce cadre utilise les états cachés de Mamba pour enregistrer et transmettre continuellement des informations contextuelles étendues tout au long du flux vidéo, aboutissant ainsi à un suivi d'objets plus robuste. Le composant central de MCITrack est le module de Fusion des Informations Contextuelles, qui comprend une couche Mamba et une couche d'attention croisée. La couche Mamba stocke les informations contextuelles historiques, tandis que la couche d'attention croisée intègre ces informations aux caractéristiques visuelles actuelles de chaque bloc du backbone. Ce module améliore la capacité du modèle à capturer et utiliser des informations contextuelles à plusieurs niveaux grâce à une intégration profonde avec le backbone. Les expériences montrent que MCITrack atteint des performances compétitives sur de nombreux benchmarks. Par exemple, il obtient un taux AUC (Area Under Curve) de 76,6% sur LaSOT et un taux AO (Average Overlap) de 80,0% sur GOT-10k, établissant ainsi une nouvelle performance state-of-the-art (niveau d'état de l'art). Le code source et les modèles sont disponibles sur https://github.com/kangben258/MCITrack.