Les différentes tâches de suivi nécessitent-elles des modèles d'apparence différents ?

Le suivi d'objets d'intérêt dans une vidéo est l'un des problèmes les plus populaires et largement applicables en vision par ordinateur. Cependant, au fil des années, une explosion de cas d'utilisation et de benchmarks a fragmenté le problème en une multitude de configurations expérimentales différentes. En conséquence, la littérature s'est également fragmentée, et les nouvelles approches proposées par la communauté sont généralement spécialisées pour ne correspondre qu'à une configuration spécifique. Pour comprendre dans quelle mesure cette spécialisation est nécessaire, nous présentons dans ce travail UniTrack, une solution permettant d'aborder cinq tâches différentes au sein du même cadre. UniTrack se compose d'un seul modèle d'apparence indifférent à la tâche (task-agnostic), qui peut être appris de manière supervisée ou auto-supervisée, ainsi que de multiples « têtes » qui traitent des tâches individuelles sans nécessiter d'entraînement. Nous montrons comment la plupart des tâches de suivi peuvent être résolues au sein de ce cadre, et que le même modèle d'apparence peut être utilisé avec succès pour obtenir des résultats compétitifs par rapport aux méthodes spécialisées pour la plupart des tâches considérées. Ce cadre nous permet également d'analyser les modèles d'apparence obtenus avec les méthodes auto-supervisées les plus récentes, étendant ainsi leur évaluation et leur comparaison à une gamme plus large de problèmes importants.