
비디오 객체 검출(Video Object Detection, VID)에서 일반적으로 사용되는 방법은 비디오의 풍부한 시간적 맥락을 활용하여 각 프레임 내의 객체 표현을 강화하는 것이다. 기존 방법들은 서로 다른 객체들로부터 얻어진 시간적 맥락을 구별 없이 처리하고, 그들의 서로 다른 정체성을 무시한다. 직관적으로 보면, 같은 객체의 다른 프레임에서의 국소적인 시점을 집계하면 객체에 대한 더 나은 이해를 돕는 데 유리할 것이다. 따라서 본 논문에서는 모델이 각 객체의 정체성이 일관된 시간적 맥락에 집중하도록 하여, 보다 포괄적인 객체 표현을 얻고 빠른 객체 외형 변화(예: 가림, 움직임 블러 등)를 처리하는 것을 목표로 한다. 그러나 이 목표를 기존 VID 모델 위에서 실현하려면, 중복된 영역 제안과 프레임 단위 예측 방식으로 인해 효율성이 낮아지는 문제가 발생한다. 이를 해결하기 위해 우리는 정체성 일관 집계(Identity-Consistent Aggregation, ICA) 레이어를 탑재한 VID 모델인 클립비디오(ClipVID)를 제안한다. 이 모델은 세트 예측 전략을 통해 중복성을 효과적으로 줄이고, ICA 레이어가 매우 효율적이게 만드는 한편, 전체 비디오 클립에 대해 병렬로 클립 단위 예측을 수행할 수 있는 아키텍처 설계를 가능하게 한다. 광범위한 실험 결과는 우리의 방법론이 우수함을 입증한다: ImageNet VID 데이터셋에서 최신 연구(SOTA) 성능(84.7% mAP)를 달성하면서도 이전 SOTA보다 약 7배 빠른 속도(39.3 fps)로 실행된다.