2달 전

LD-DETR: 루프 디코더 기반 비디오 모멘트 검색 및 하이라이트 감지용 디텍션 트랜스포머

Zhao, Pengcheng ; He, Zhixian ; Zhang, Fuwei ; Lin, Shujin ; Zhou, Fan
LD-DETR: 루프 디코더 기반 비디오 모멘트 검색 및 하이라이트 감지용 디텍션 트랜스포머
초록

비디오 모멘트 검색 및 하이라이트 탐지는 텍스트 쿼리에 기반하여 비디오에서 해당 내용을 찾는 것을 목표로 합니다. 기존 모델들은 일반적으로 먼저 대조 학습 방법을 사용하여 비디오와 텍스트 특성을 맞춥니다. 그런 다음 다중모달 정보를 융합하고 추출하며, 마지막으로 Transformer 디코더를 사용하여 다중모달 정보를 디코딩합니다. 그러나 기존 방법들은 다음과 같은 몇 가지 문제를 안고 있습니다: (1) 데이터셋 내 다른 샘플들 간의 중복되는 의미 정보가 모델의 다중모달 맞춤 성능을 저해합니다; (2) 기존 모델들은 비디오의 국소 특징을 효율적으로 추출할 수 없습니다; (3) 기존 모델에서 사용하는 Transformer 디코더는 다중모달 특징을 충분히 디코딩하지 못합니다. 이러한 문제들을 해결하기 위해, 우리는 비디오 모멘트 검색 및 하이라이트 탐지 작업을 위한 LD-DETR 모델을 제안하였습니다. 구체적으로, 우리는 먼저 유사성 행렬을 단위 행렬로 정제하여 중복되는 의미 정보의 영향을 완화하였습니다. 그런 다음, 다중모달 국소 특징을 더 효율적으로 추출할 수 있는 컨볼루션 레이어 방법론을 설계하였습니다. 마지막으로, Transformer 디코더의 출력을 다시 입력으로 사용하여 다중모달 정보를 충분히 디코딩하였습니다. 우리는 LD-DETR를 네 개의 공개 벤치마크에서 평가하였으며, 광범위한 실험을 통해 우리의 접근 방식의 우수성과 효과성을 입증하였습니다. 우리의 모델은 QVHighlight, Charades-STA 및 TACoS 데이터셋에서 최신 연구(SOTA) 모델들을 능가하였습니다. 우리의 코드는 https://github.com/qingchen239/ld-detr 에서 확인할 수 있습니다.

LD-DETR: 루프 디코더 기반 비디오 모멘트 검색 및 하이라이트 감지용 디텍션 트랜스포머 | 최신 연구 논문 | HyperAI초신경