OmniTracker : Unification du suivi d'objets par le suivi-par-détection

Le suivi d'objets (OT) vise à estimer les positions des objets cibles au sein d'une séquence vidéo. Selon que les états initiaux des objets cibles soient fournis par des annotations dans la première image ou selon leurs catégories, le suivi peut être classé en deux grandes catégories : le suivi d'instances (par exemple, SOT et VOS) et le suivi de catégories (par exemple, MOT, MOTS et VIS). En combinant les meilleures pratiques développées au sein de ces deux communautés, nous proposons un nouveau paradigme de suivi avec détection, dans lequel le suivi fournit des priori d'apparence pour la détection, tandis que la détection fournit au suivi des boîtes englobantes candidates pour l'association. Grâce à cette architecture, nous introduisons un modèle unifié de suivi, OmniTracker, capable de résoudre toutes les tâches de suivi à l’aide d’une architecture réseau entièrement partagée, de poids de modèle communs et d’un pipeline d’inférence uniforme. Des expériences étendues sur sept jeux de données de suivi — notamment LaSOT, TrackingNet, DAVIS16-17, MOT17, MOTS20 et YTVIS19 — montrent que OmniTracker atteint des performances équivalentes, voire supérieures, à celles des modèles spécialisés par tâche ainsi qu’à celles des modèles unifiés existants.