il y a 2 mois

Apprentissage unifié de séquence à séquence pour le suivi d'objets visuels mono- et multi-modaux

Xin Chen; Ben Kang; Jiawen Zhu; Dong Wang; Houwen Peng; Huchuan Lu

Résumé

Dans cet article, nous présentons un nouveau cadre d'apprentissage séquentiel pour le suivi d'objets basé sur RGB et multi-modaux. Premièrement, nous introduisons SeqTrack pour le suivi basé sur RGB. Ce modèle transforme le suivi visuel en une tâche de génération de séquences, prédiction des boîtes englobantes des objets de manière autorégressive. Cela diffère des traqueurs précédents, qui dépendent de la conception de réseaux de tête complexes, tels que les têtes de classification et de régression. SeqTrack utilise une architecture de transformateur encodeur-décodeur basique. L'encodeur emploie un transformateur bidirectionnel pour l'extraction des caractéristiques, tandis que le décodeur génère les séquences de boîtes englobantes de manière autorégressive à l'aide d'un transformateur causal. La fonction de perte est une simple entropie croisée.Deuxièmement, nous présentons SeqTrackv2, un cadre séquentiel unifié pour les tâches de suivi multi-modaux. En s'appuyant sur SeqTrack, SeqTrackv2 intègre une interface unifiée pour les modalités auxiliaires et un ensemble de jetons spécifiques à la tâche (task-prompt tokens) pour définir la tâche. Cela lui permet de gérer les tâches de suivi multi-modaux à l'aide d'un modèle et d'un ensemble de paramètres unifiés. Cette paradigme d'apprentissage séquentiel non seulement simplifie le cadre du suivi, mais montre également des performances supérieures sur 14 benchmarks difficiles couvrant cinq tâches de suivi mono- et multi-modaux. Le code et les modèles sont disponibles à l'adresse suivante : https://github.com/chenxin-dlut/SeqTrackv2.