LLM 인코딩과 가상 이벤트 규제를 통한 사전 지식 통합 비디오 순간 검색을 위한 방법

본 논문에서는 대형 언어 모델(LLMs)을 활용하여 일반 지식을 통합하고 비디오 순간 검색(VMR) 모델에서 시간적 콘텐츠 분포를 위한 가상 이벤트(pseudo-events)를 사전 정보(priors)로 도입하는 타당성을 조사합니다. 이 연구의 동기는 LLMs가 디코더로서 이산적인 텍스트 설명을 생성하는 데 사용될 때 발생하는 제한성에서 비롯됩니다. 이러한 제한성은 주목도 점수(salience scores)와 프레임 간 임베딩(inter-frame embeddings) 같은 연속적인 출력에 직접 적용하는 것을 방해합니다. 이를 극복하기 위해, 우리는 LLM 인코더를 디코더 대신 사용하는 방법을 제안합니다. 타당성 연구를 통해 우리는 LLM 인코더가 텍스트 임베딩으로 학습되지 않은 상태에서도 다중모달 임베딩(multimodal embeddings) 내의 개념 간 관계를 효과적으로 개선할 수 있음을 입증하였습니다. 또한, 이러한 개선 능력이 CLIP 임베딩과 유사한 개념 간 유사성 패턴을 보이는 BLIP 및 T5와 같은 다른 임베딩에도 전이될 수 있음을 보였습니다. 우리는 기존 VMR 아키텍처, 특히 융합 모듈(fusion module)에 LLM 인코더를 통합하기 위한 일반적인 프레임워크를 제시합니다. 실험적 검증을 통해 제안된 방법론의 효과성을 입증하였으며, 이를 통해 VMR에서 최고 수준의 성능을 달성하였습니다. 소스 코드는 https://github.com/fletcherjiang/LLMEPET에서 확인할 수 있습니다.