2달 전

VideoLights: 동영상 하이라이트 검출 및 순간 검색을 위한 특성 정제 및 크로스태스크 정렬 트랜스포머

Dhiman Paul, Md Rizwan Parvez, Nabeel Mohammed, Shafin Rahman
VideoLights: 동영상 하이라이트 검출 및 순간 검색을 위한 특성 정제 및 크로스태스크 정렬 트랜스포머
초록

비디오 하이라이트 검출 및 모멘트 검색(HD/MR)은 비디오 분석에서 필수적입니다. 최근의 공동 예측 트랜스포머 모델들은 종종 태스크 간 동역학과 비디오-텍스트 정렬 및 개선을 간과합니다. 또한, 대부분의 모델들은 제한된 단방향 주의 메커니즘을 사용하여, 비디오와 텍스트 모달 간의 상호 의존성을 포착하는 데 약하게 통합된 표현과 최적화되지 않은 성능을 초래합니다. 대형 언어 모델과 시각-언어 모델(LLM/LVLMs)이 다양한 분야에서 주목받고 있지만, 이들 모델의 이 분야에서의 적용은 아직 상대적으로 미흡한 상태입니다. 본 연구에서는 이러한 한계를 해결하기 위해 VideoLights라는 새로운 HD/MR 프레임워크를 제안합니다. VideoLights는 (i) 더 나은 비디오-텍스트 특성 정렬을 위한 정렬 손실(convolutional projection and feature refinement modules), (ii) 강력히 결합된 쿼리 인식 클립 표현을 위한 양방향 크로스-모달 융합 네트워크(bidirectional cross-modal fusion network), (iii) 두 태스크 모두를 상관 관계를 통해 개선하는 단방향 공동 태스크 피드백 메커니즘(uni-directional joint-task feedback mechanism), (iv) 적응적인 오류 처벌과 개선된 학습을 위한 하드 양/음 손실(hard positive/negative losses), 그리고 (v) LVLMs로부터 생성된 합성 데이터를 사용하여 다중모달 특성 통합과 지능형 사전 학습을 강화하는 BLIP-2 등의 LVLMs 활용 방안을 제시합니다. QVHighlights, TVSum, Charades-STA 벤치마크에서 수행한 포괄적인 실험 결과, VideoLights가 최신 기술 수준의 성능을 보임을 입증하였습니다. 코드와 모델은 https://github.com/dpaul06/VideoLights 에서 제공됩니다.

VideoLights: 동영상 하이라이트 검출 및 순간 검색을 위한 특성 정제 및 크로스태스크 정렬 트랜스포머 | 최신 연구 논문 | HyperAI초신경