7일 전

반복적 비디오-텍스트 공동 토큰화를 활용한 비디오 질의 응답

AJ Piergiovanni, Kairo Morton, Weicheng Kuo, Michael S. Ryoo, Anelia Angelova
반복적 비디오-텍스트 공동 토큰화를 활용한 비디오 질의 응답
초록

비디오 질의 응답은 비디오의 언어 입력, 개별 프레임에 포함된 시각 정보, 그리고 비디오 내에서 발생하는 사건에 대한 시간 정보를 종합적으로 이해해야 하는 도전적인 과제이다. 본 논문에서는 다수의 비디오 입력을 활용하고, 새로운 비디오-텍스트 반복적 공통 토큰화(Iterative Co-tokenization) 기법을 도입한 새로운 다중 스트림 비디오 인코더를 제안한다. 이는 다양한 비디오 관련 질문에 대해 효과적으로 답변할 수 있도록 한다. 제안된 모델은 MSRVTT-QA, MSVD-QA, IVQA 등 여러 데이터셋에서 실험적으로 평가되었으며, 기존 최고 성능 모델 대비 큰 성능 향상을 보였다. 동시에 모델의 필요 GFLOPs는 기존 150~360에서 단 67으로 감소하여, 매우 효율적인 비디오 질의 응답 모델을 구현하였다.

반복적 비디오-텍스트 공동 토큰화를 활용한 비디오 질의 응답 | 최신 연구 논문 | HyperAI초신경