
초록
이전의 이중 스트림 추적기와 비교하여, 템플릿 영역과 검색 영역 간의 상호작용을 더 일찍 허용하는 최신의 단일 스트림 추적 파이프라인은 놀라운 성능 향상을 달성하였다. 그러나 기존의 단일 스트림 추적기는 모든 인코더 계층에서 템플릿이 검색 영역 내 모든 부분과 지속적으로 상호작용하도록 하고 있다. 이는 추출된 특징 표현이 충분히 구별력이 없을 경우, 타겟과 배경 간의 혼동을 유발할 수 있다. 이러한 문제를 완화하기 위해, 적응형 토큰 분할 기반의 일반화된 관계 모델링 방법을 제안한다. 제안한 방법은 트랜스포머 기반 추적을 위한 주의 기반 관계 모델링의 일반화된 공식이며, 이전의 이중 스트림 및 단일 스트림 파이프라인의 장점을 유지하면서, 적절한 검색 토큰과 템플릿 토큰 간의 상호작용을 선택함으로써 보다 유연한 관계 모델링을 가능하게 한다. 토큰 분할 모듈의 병렬 계산과 엔드투엔드 학습을 촉진하기 위해 주의 마스킹 전략과 Gumbel-Softmax 기법을 도입하였다. 광범위한 실험 결과, 본 방법은 이중 스트림 및 단일 스트림 파이프라인을 모두 능가하며, 여섯 개의 도전적인 벤치마크에서 실시간 속도로 최신 기술 수준(SOTA)의 성능을 달성함을 보였다.