11일 전

트래킹이 LoRA와 만날 때: 더 빠른 훈련, 더 큰 모델, 더 강한 성능

Liting Lin, Heng Fan, Zhipeng Zhang, Yaowei Wang, Yong Xu, Haibin Ling

초록

대규모 언어 모델에서의 파라미터 효율적 미세조정(Parameter-Efficient Fine-Tuning, PEFT)에 영감을 받아, 실험실 수준의 자원만으로도 대규모 ViT 모델의 추적 성능을 극대화할 수 있는 LoRAT 방식을 제안한다. 본 연구의 핵심은, 추적 작업에 적용된 기존의 LoRA 기법을 적절히 변형하여, 모델 파라미터의 소수만을 미세조정함으로써 추론 지연을 추가하지 않으면서도 고성능 추적을 달성하는 것이다. 그러나 트랜스포머 기반 추적기의 고유한 구조적 특성과 사전 훈련된 백본 모델과 추적 작업 사이의 도메인 갭으로 인해, 이러한 기법의 직접적 전이가 직관적인 생각만큼 간단하지는 않다. 첫째, 트랜스포머 기반 추적기는 템플릿 이미지와 검색 이미지에 대해 공유되지 않는 위치 임베딩을 각각 구성한다. 이는 보통 사전 훈련된 백본에 적용할 때 구조적 일관성을 요구하는 LoRA 기법의 전이에 부정적인 영향을 미친다. 둘째, 컨볼루션 헤드에 내재된 유도 편향(Inductive bias)은 추적 모델에서 파라미터 효율적 미세조정의 효과를 저하시킨다. 이러한 문제를 극복하기 위해, 본 연구에서는 트랜스포머 기반 추적기 내의 위치 임베딩을 공유 공간 임베딩과 독립적인 타입 임베딩으로 분리한다. 공유 임베딩은 다중 해상도 이미지(즉, 템플릿 및 검색 이미지)의 절대 좌표를 나타내며, 사전 훈련된 백본에서 유래한다. 반면, 독립 임베딩은 각 토큰의 출처를 나타내며, 처음부터 학습된다. 또한, PETR 기반 추적기의 성능을 향상시키면서 계산 부담을 줄이기 위해, 오직 MLP에 기반한 앵커-프리 헤드를 설계하였다. 본 연구의 설계를 통해, 1) ViT-g 백본을 사용하는 추적기의 훈련이 메모리 용량 25.8GB의 GPU에서(batch size = 16) 실현 가능해졌으며, 2) L-224 변형 모델의 훈련 시간이 35.0에서 10.8 GPU 시간으로 단축되었으며, 3) LaSOT SUC 점수는 L-224 변형 모델 기준으로 0.703에서 0.742로 향상되었으며, 4) L-224 변형 모델의 추론 속도는 기존의 52 FPS에서 119 FPS로 향상되었다. 코드 및 모델은 https://github.com/LitingLin/LoRAT 에 공개되어 있다.