
시간적 정지화(Temporal Grounding)는 텍스트 설명에 대응하는 비디오의 특정 순간이나 하이라이트를 식별하는 것을 의미합니다. 시간적 정지화에서 일반적으로 사용되는 접근 방식은 텍스트 쿼리와의 의미론적 관련성에 관계없이 모든 비디오 클립을 인코딩 과정에서 동등하게 취급합니다. 따라서, 우리는 쿼리와 연관된 비디오 클립에 대한 단서를 교차 모달 주의 메커니즘 내에서 제공하기 위해 상관관계 안내 검출 변환기(Correlation-Guided DEtection TRansformer, CG-DETR)를 제안합니다.첫째, 더미 토큰을 사용한 적응형 교차 주의 메커니즘을 설계하였습니다. 텍스트 쿼리에 의해 조건부로 설정된 더미 토큰은 주의 가중치의 일부를 차지하여, 관련성이 없는 비디오 클립이 텍스트 쿼리로 표현되는 것을 방지합니다. 그러나 모든 단어가 동일하게 비디오 클립과의 상관관계를 계승하지는 않습니다. 따라서, 우리는 비디오 클립과 단어 간의 세부적인 상관관계를 추론하여 교차 주의 맵을 더욱 안내합니다. 이를 통해 고수준 개념(예: 순간 및 문장 수준)에 대한 공동 임베딩 공간을 학습하고, 클립-단어 상관관계를 추론할 수 있습니다.마지막으로, 우리는 순간 특유의 특성을 활용하여 각 비디오의 맥락과 결합하여 순간 적응형 주요성 검출기를 구성하였습니다. 이 방법은 각 비디오 클립에서 텍스트 참여도를 활용하여 각 클립의 하이라이트 정도를 정확히 측정합니다. CG-DETR은 다양한 시간적 정지화 벤치마크에서 최고 수준의 결과를 달성하였으며, 코드는 https://github.com/wjun0830/CGDETR 에서 확인할 수 있습니다.