
초록
시각적 객체 추적에서 대상 범위 추정은 근본적인 도전 과제를 제기합니다. 일반적으로 추적기는 박스 중심적이며, 장면 내의 대상을 정의하기 위해 완전히 경계 상자에 의존합니다. 실제로 객체들은 복잡한 형태를 가지며 이미지 축과 일치하지 않는 경우가 많습니다. 이러한 경우, 경계 상자는 대상을 정확하게 설명하지 못하며 배경 픽셀을 많이 포함하는 경향이 있습니다. 우리는 세그멘테이션 중심적인 추적 파이프라인을 제안합니다. 이는 높은 정확도의 세그멘테이션 마스크를 생성할 뿐만 아니라, 내부적으로 경계 상자가 아닌 세그멘테이션 마스크를 사용하여 작동합니다. 따라서 우리의 추적기는 장면 내의 배경 콘텐츠와 명확히 구분되는 대상 표현을 더 잘 학습할 수 있습니다. 도전적인 추적 시나리오에서 필요한 견고성을 달성하기 위해, 우리는 출력 마스크 생성 시 세그멘테이션 디코더를 조건화하는 별도의 인스턴스 위치 결정 구성 요소를 제안합니다. 우리는 세그멘테이션 마스크에서 경계 상자를 유추하고, 도전적인 추적 데이터셋에서 우리의 추적기를 검증하여 LaSOT에서 성공 AUC 점수 69.7%로 새로운 최고 수준을 달성했습니다. 대부분의 추적 데이터셋에는 마스크 주석이 포함되어 있지 않으므로, 예측된 세그멘테이션 마스크를 평가할 수 없습니다. 대신, 두 개의 인기 있는 비디오 객체 세그멘테이션 데이터셋에서 우리의 세그멘테이션 품질을 검증하였습니다.