자연어를 활용한 더 유연하고 정확한 객체 추적을 위한 알고리즘 및 벤치마크

언어 기반 지정을 통한 추적(Tracking by natural language specification)은 비디오 시퀀스 내에서 대상 객체를 언어 설명에 기반해 위치를 추적하는 새로운 부상하는 연구 주제이다. 기존의 경계상자(Bounding box, BBox) 기반 추적과 비교하여, 이 방법은 고수준의 의미 정보를 활용해 객체 추적을 안내하고, BBox의 모호성을 해결하며, 국소적 및 전역적 탐색을 자연스럽게 연결한다. 이러한 장점들은 실제 환경에서 보다 유연하고 강건하며 정확한 추적 성능을 가능하게 한다. 그러나 기존의 언어 기반 초기화 추적기들은 BBox 기반 추적을 위한 기준 데이터셋에서 개발되고 비교되어 왔으며, 이는 언어 기반 추적의 진정한 능력을 반영하지 못한다. 본 연구에서는 언어 기반 추적에 특화된 새로운 기준 데이터셋을 제안한다. 이 데이터셋은 대규모 데이터셋과 강력하고 다양한 베이스라인 방법을 포함한다. 구체적으로, 2,000개의 비디오 시퀀스(총 1,244,340 프레임, 663개의 단어 포함)를 수집하였으며, 학습용과 테스트용으로 각각 1,300개와 700개로 분할하였다. 각 비디오에 대해 영어로 하나의 문장을 밀집하게 주석화하고, 대상 객체에 해당하는 경계상자를 동시에 레이블링하였다. 또한, 객체 추적 과제를 위해 TNL2K에 두 가지 새로운 도전 과제를 도입하였다. 즉, 적대적 샘플(Adversarial samples)과 모달리티 전환(Modal switch)이다. 향후 연구를 위한 강력한 베이스라인 방법으로, 적응형 국소-전역 탐색 기반의 방법을 제안한다. 본 연구자가 믿기에, 이 기준 데이터셋은 언어 지도 추적 관련 연구의 발전을 크게 촉진할 것이다.