길이 인식 DETR을 이용한 강건한 모멘트 검색

비디오 모먼트 검색(Moment Retrieval, MR)은 주어진 자연어 쿼리에 기반하여 비디오 내의 특정 시점들을 정확히 위치시키는 것을 목표로 합니다. 유튜브와 같은 플랫폼이 정보 검색에 널리 사용됨에 따라 MR 기술에 대한 수요가 크게 증가하고 있습니다. 최근 DETR 기반 모델들은 성능에서 눈에 띄는 발전을 이루었지만 여전히 짧은 시점들의 정확한 위치를 파악하는 데 어려움을 겪고 있습니다.데이터 분석을 통해 우리는 짧은 시점들에서 특징 다양성이 제한적임을 확인하였으며, 이는 MomentMix 개발의 동기를 제공하였습니다. MomentMix는 두 가지 강화 전략인 ForegroundMix와 BackgroundMix를 활용합니다. 각각 전경과 배경의 특징 표현을 향상시키는 역할을 합니다.또한, 예측 편향성 분석 결과 짧은 시점들이 특히 그 순간들의 중심 위치를 정확히 예측하는 데 어려움이 있음을 발견하였습니다. 이를 해결하기 위해, 우리는 길이 인식 디코더(Length-Aware Decoder)를 제안합니다. 이 디코더는 새로운 이분 매칭 과정을 통해 길이를 조건부로 설정합니다. 우리의 광범위한 연구 결과는 길이 인식 접근 방식의 효과성을 입증하며, 특히 짧은 시점들의 위치 파악에서 전체적인 성능 향상을 이끌었습니다.우리의 방법은 벤치마크 데이터셋에서 최신 DETR 기반 방법론들을 능가하며, QVHighlights에서는 R1 및 mAP에서 가장 높은 점수를, TACoS와 Charades-STA에서는 [email protected]에서 가장 높은 점수를 달성하였습니다(예: QVHighlights에서 [email protected] 2.46% 상승, mAP 평균 2.57% 상승). 코드는 https://github.com/sjpark5800/LA-DETR 에서 확인할 수 있습니다.