
비디오 객체 검출(Video Object Detection, VID)은 객체의 높은 변화성과 일부 프레임에서의 다양한 화질 저하로 인해 어려움을 겪습니다. 긍정적인 측면에서는 비디오의 특정 프레임에서의 검출이 정지 이미지에 비해 다른 프레임으로부터 지원을 받을 수 있다는 점입니다. 따라서, 다양한 프레임 간의 특징을 통합하는 방법이 VID 문제 해결에 핵심적입니다. 기존의 대부분 집계 알고리즘은 두 단계 검출기에 맞춰 설계되어 있습니다. 그러나 이러한 검출기는 두 단계 구조로 인해 계산적으로 비용이 많이 들기 마련입니다. 본 연구에서는 위와 같은 문제를 해결하기 위해 간단하면서도 효과적인 전략을 제안합니다. 이 전략은 성능 개선에 큰 영향을 미치면서도 추가적인 부담이 거의 없습니다. 구체적으로, 전통적인 두 단계 파이프라인과 달리 우리는 한 단계 검출 후 중요한 영역만 선택하여 대량의 저품질 후보들을 처리하지 않도록 합니다. 또한, 타겟 프레임과 참조 프레임 사이의 관계를 평가하여 집계 과정을 안내합니다. 우리는 광범위한 실험과 분석 연구(ablation studies)를 수행하여 우리의 설계 방식이 효과적임을 확인하였으며, 이는 다른 최신 VID 접근법들보다 효율성과 성능 면에서 우수함을 입증하였습니다. 우리의 YOLOX 기반 모델은 단일 2080Ti GPU에서 ImageNet VID 데이터셋에서 30 FPS 이상으로 87.5% AP50를 달성할 수 있어 대규모 또는 실시간 응용 분야에서 매력적입니다. 구현은 매우 간단하며, 데모 코드와 모델은 \url{https://github.com/YuHengsss/YOLOV}에서 제공됩니다.