Tracking trifft auf LoRA: Schnelleres Training, größeres Modell, stärkere Leistung

Angeregt durch die parameter-effiziente Feinabstimmung (Parameter-Efficient Fine-Tuning, PEFT) in großen Sprachmodellen stellen wir LoRAT vor, eine Methode, die das Potenzial großer ViT-Modelle für die visuelle Verfolgung unter Laborressourcen erschließt. Der Kern unserer Arbeit besteht darin, LoRA – eine Technik, die eine kleine Teilmenge der Modellparameter feinabstimmt, ohne die Inferenzlatenz zu erhöhen – auf den Bereich der visuellen Verfolgung zu übertragen. Allerdings ergeben sich aufgrund spezifischer Herausforderungen und potenzieller Domänenlücken bei dieser Übertragung nicht unbedingt die intuitiv erwarteten Ergebnisse. Erstens konstruiert ein Transformer-basiertes Verfolgungsmodell für Vorlage- und Suchbild jeweils unabhängige Positionsembeddings. Dies stellt eine Herausforderung für die Anwendung von LoRA dar, da diese normalerweise eine konsistente Architektur zwischen vortrainiertem Backbone und Downstream-Aufgabe erfordert. Zweitens verringert die induktive Bias, die in convolutionalen Head-Architekturen inhärent ist, die Wirksamkeit parameter-effizienter Feinabstimmung in Verfolgungsmodellen. Um diese Einschränkungen zu überwinden, entkoppeln wir zunächst die Positionsembeddings in Transformer-basierten Verfolgern in gemeinsame räumliche und unabhängige Typ-Embodiments. Die gemeinsamen Embeddings, die die absoluten Koordinaten von mehrskaligen Bildern (nämlich Vorlage- und Suchbild) beschreiben, werden aus den vortrainierten Backbones übernommen. Im Gegensatz dazu werden die unabhängigen Embeddings, die die Herkunft jedes Tokens angeben, von Grund auf neu gelernt. Darüber hinaus entwerfen wir einen anchor-free Head, der ausschließlich auf MLP basiert und PETR anpasst, wodurch eine bessere Leistung bei geringerem Rechenaufwand erzielt wird. Durch unsere Architektur wird es praktikabel, Verfolgungsmodelle mit ViT-g-Backbone auf GPUs mit nur 25,8 GB Speicher (Batch-Größe von 16) zu trainieren; die Trainingszeit des L-224-Variante wird von 35,0 auf 10,8 GPU-Stunden reduziert; der LaSOT SUC-Score des L-224-Variante steigt von 0,703 auf 0,742; außerdem beschleunigt sich die Inferenzgeschwindigkeit des L-224-Variante von 52 auf 119 FPS. Der Quellcode und die Modelle sind unter https://github.com/LitingLin/LoRAT verfügbar.