Le suivi rencontre LoRA : une formation plus rapide, un modèle plus grand, des performances renforcées

Motivés par le fine-tuning efficace en paramètres (PEFT) dans les grands modèles linguistiques, nous proposons LoRAT, une méthode qui exploite pleinement le potentiel des grands modèles ViT pour le suivi visuel, tout en s’appuyant uniquement sur des ressources de laboratoire. L’essence de notre travail réside dans l’adaptation de LoRA, une technique de fine-tuning qui ajuste uniquement un petit sous-ensemble de paramètres du modèle sans ajouter de latence au moment de l’inférence, au domaine du suivi visuel. Toutefois, des défis uniques et des écarts de domaine rendent ce transfert moins évident qu’il n’y paraît initialement. Premièrement, un suiveur basé sur un transformer construit des embeddings de position non partagés pour l’image modèle et l’image de recherche, ce qui pose un défi au transfert de LoRA, qui suppose généralement une cohérence dans la conception lorsqu’elle est appliquée à un modèle pré-entraîné pour une tâche en aval. Deuxièmement, le biais inductif inhérent aux têtes convolutionnelles réduit l’efficacité du fine-tuning efficace en paramètres dans les modèles de suivi. Pour surmonter ces limitations, nous décomposons tout d’abord les embeddings de position dans les trackers basés sur les transformers en deux composantes : des embeddings spatiaux partagés et des embeddings indépendants par type. Les embeddings partagés, qui décrivent les coordonnées absolues des images à plusieurs résolutions (à savoir l’image modèle et l’image de recherche), sont hérités des modèles pré-entraînés. En revanche, les embeddings indépendants indiquent la source de chaque token et sont appris depuis le début. Par ailleurs, nous concevons une tête sans ancres, entièrement basée sur des MLP, pour adapter PETR, permettant ainsi une meilleure performance avec un coût computationnel réduit. Grâce à cette architecture, nous parvenons à : 1) rendre praticable l’entraînement de trackers utilisant un modèle ViT-g sur des GPU disposant uniquement de 25,8 Go de mémoire (taille de batch de 16) ; 2) réduire le temps d’entraînement de la variante L-224 de 35,0 à 10,8 heures GPU ; 3) améliorer le score SUC sur LaSOT de 0,703 à 0,742 avec la variante L-224 ; 4) accélérer la vitesse d’inférence de la variante L-224 de 52 à 119 FPS. Le code et les modèles sont disponibles à l’adresse suivante : https://github.com/LitingLin/LoRAT.