2달 전

채널 및 공간 특성 융합을 이용한 Transformer 기반 RGB-T 추적

Yunfeng Li; Bo Wang; Ye Li; Zhiwen Yu; Liang Wang
채널 및 공간 특성 융합을 이용한 Transformer 기반 RGB-T 추적
초록

RGB-T 추적에서 더 나은 다중 모달 특성 융합 방법을 찾는 것이 핵심 이슈입니다. 일부 기존 방법들은 RGB와 TIR 특성을 충분히 융합하지 않거나, 두 모달의 정보를 모두 포함하는 중간 매개체에 의존하여 다중 모달 정보 상호작용을 달성하려고 합니다. 전자는 템플릿이나 탐색 영역의 RGB와 TIR 정보만을 사용한 채널 및 공간 특성 융합의 잠재력을 완전히 활용하지 못하며, 후자는 템플릿과 탐색 영역 간의 직접적인 상호작용이 부족하여 모델이 두 모달의 원래 의미론적 정보를 완전히 활용하는 능력이 제한됩니다. 이러한 한계를 완화하기 위해, 우리는 시각 Transformer의 성능을 개선하기 위한 방법으로 다중 모달 채널과 공간 특성의 직접 융합을 연구하고 CSTNet을 제안합니다. CSTNet은 ViT(Vision Transformer)를 백본으로 사용하며, RGB와 TIR 특성 간의 직접 상호작용을 위해 다중 모달 채널 특성 융합 모듈(CFM)과 다중 모달 공간 특성 융합 모듈(SFM)을 삽입합니다. CFM은 RGB와 TIR 특성을 병렬로 공동 채널 강화와 공동 다단계 공간 특성 모델링을 수행하고, 이를 합산한 뒤 전역적으로 합산된 특성을 원래 특성과 통합합니다. SFM은 교차 주목(cross-attention)을 사용하여 다중 모달 특성의 공간 관계를 모델링한 다음, 컨벌루션 피드포워드 네트워크(convolutional feedforward network)를 도입하여 다중 모달 특성의 공동 공간 및 채널 통합을 수행합니다. 우리는 CFM과 SFM이 제거된 모델에서 CSNet 사전 학습 가중치를 사용하여 다시 학습시키고, CSTNet-small을 제안하는데, 이는 36%의 매개변수 감소와 24%의 FLOPs(Floating Point Operations Per Second) 감소, 그리고 1-2% 성능 저하를 동반하면서도 50% 속도 향상을 이루어냅니다. 포괄적인 실험 결과 CSTNet은 세 가지 공개 RGB-T 추적 벤치마크에서 최상위 수준의 성능을 달성함을 보여주었습니다. 코드는 https://github.com/LiYunfengLYF/CSTNet 에서 제공됩니다.