단일 모델 및 임의의 모달리티를 위한 비디오 객체 추적

비디오 객체 추적 분야에서 깊이, 열화상, 또는 이벤트 데이터와 같은 보조 모달리티들이 RGB 추적기들을 보완하기 위한 귀중한 자산으로 부각되고 있습니다. 실제로 대부분의 기존 RGB 추적기들은 다양한 데이터셋과 응용 프로그램에 걸쳐 단일 세트의 매개변수를 학습하여 사용합니다. 그러나 다중 모달리티 추적을 위한 유사한 단일 모델 통합은 여러 가지 도전 과제를 제시합니다. 이러한 도전 과제는 입력의 본질적인 이질성(모달리티별 표현), 다중 모달 데이터셋의 부족, 그리고 모든 시간에 모든 모달리티가 존재하지 않는다는 점에서 비롯됩니다. 본 연구에서는 어떤 모달리티든 처리할 수 있는 단일 세트의 매개변수로 구성된 통합 추적기인 Un-Track을 소개합니다. 우리의 방법은 저순위 인수분해 및 재구성 기술을 통해 모든 모달리티들의 공통 잠재 공간을 학습하여 이를 처리합니다. 더욱 중요한 점은, 우리는 공통 잠재 공간을 학습하는 데 RGB-X 쌍만 사용한다는 것입니다. 이 고유한 공유 표현은 모든 모달리티를 원활하게 연결하여 효과적인 통합을 가능케 하며, 어떤 모달리티가 누락되어도 단일 트랜스포머 기반 아키텍처 내에서 수용할 수 있게 합니다. 우리의 Un-Track은 간단하면서도 효율적인 프롬프팅 전략을 통해 +2.14 (21.50보다) GFLOPs와 +6.6M (93M보다) 매개변수를 추가함으로써 DepthTrack 데이터셋에서 +8.1 절대 F-점수 향상을 달성하였습니다. 다섯 개의 벤치마크 데이터셋에서 수행된 광범위한 비교 실험 결과, Un-Track은 최신 통합 추적기들과 모달리티별 특화된 대응 방식들 모두를 능가하였으며, 이는 우리의 접근 방식이 효과적이고 실용적임을 입증하였습니다. 소스 코드는 https://github.com/Zongwei97/UnTrack 에서 공개적으로 이용할 수 있습니다.