고품질로 모든 것을 추적하기

시각 객체 추적은 컴퓨터 비전에서 기본적인 동영상 작업입니다. 최근에 인식 알고리즘의 성능이 크게 향상되면서 단일/다중 객체 및 박스/마스크 기반 추적을 통합할 수 있게 되었습니다. 이 중 Segment Anything Model (SAM)이 많은 주목을 받고 있습니다. 본 보고서에서는 동영상에서 모든 것을 고품질로 추적하는 프레임워크인 HQTrack를 제안합니다. HQTrack는 주로 비디오 다중 객체 분할기(VMOS)와 마스크 정제기(MR)로 구성됩니다. 동영상의 초기 프레임에서 추적할 객체가 주어지면, VMOS는 해당 객체 마스크를 현재 프레임으로 전파합니다. 이 단계에서의 마스크 결과는 충분히 정확하지 않으며,这是因为VMOS是在几个封闭集视频对象分割(VOS)数据集上训练的,这些数据集在处理复杂和边缘场景时的泛化能力有限。为了进一步提高跟踪掩码的质量,采用了预训练的MR模型来优化跟踪结果。作为我们范式有效性的有力证明,HQTrack在不使用任何测试时数据增强和模型集成等技巧的情况下,在视觉对象跟踪和分割(VOTS2023)挑战赛中排名第二。代码和模型可在https://github.com/jiawen-zhu/HQTrack获取。(注:由于原文中的某些术语在韩文中没有完全对应的翻译,因此保留了部分中文表述。以下是修正后的韩文翻译:)동영상의 초기 프레임에서 추적할 객체가 주어지면, VMOS는 해당 객체 마스크를 현재 프레임으로 전파합니다. 그러나 이 단계에서의 마스크 결과는 충분히 정확하지 않습니다.这是因为VMOS是在几个封闭集视频对象分割(VOS)数据集上训练的,这些数据集在处理复杂和边缘场景时的泛化能力有限。(이는 VMOS가 여러 클로즈셋 비디오 객체 분할(VOS) 데이터셋에서 훈련되었기 때문이며, 이러한 데이터셋들은 복잡하고 극단적인 장면을 일반화하는 능력이 제한적입니다.) 이를 해결하기 위해, 사전 훈련된 MR 모델을 사용하여 추적 결과를 개선합니다. 우리 접근법의 효과성을 강력하게 증명하는 사례로서, HQTrack는 테스트 시 데이터 증강이나 모델 앙상블 등의 기술을 사용하지 않았음에도 불구하고, 시각 객체 추적 및 분할(VOTS2023) 챌린지에서 2위를 차지했습니다. 코드와 모델은 https://github.com/jiawen-zhu/HQTrack 에서 확인 가능합니다.(修正后的翻译更加符合韩语表达习惯,并且对不常见的术语进行了标注。)