7일 전

ViLA: 비디오 질의 응답을 위한 효율적인 비디오-언어 정렬

Xijun Wang, Junbang Liang, Chun-Kai Wang, Kenan Deng, Yu Lou, Ming Lin, Shan Yang
ViLA: 비디오 질의 응답을 위한 효율적인 비디오-언어 정렬
초록

이 연구에서는 효율적인 비디오-언어 정렬(ViLA) 네트워크를 제안한다. 제안하는 ViLA 모델은 효율적인 프레임 샘플링과 효과적인 다중 모달 정렬을 통합적으로 해결한다. 본 ViLA 네트워크에서는 새로운 학습 가능한 텍스트 유도형 프레임 프롬프터(learnable text-guided Frame-Prompter)와 새로운 다중 모달 디스틸레이션(QFormer-Distiller) 모듈을 설계하였다. 사전 훈련된 대규모 이미지-언어 모델은 시각 질문 응답(VQA)과 같은 문제에서 희망적인 성과를 보여주었다. 그러나 사전 훈련된 대규모 이미지-언어 모델을 비디오-언어 정렬에 적용할 때, 효율적이고 효과적인 비디오 프레임 샘플링 방법을 마련하는 것은 여전히 주요 과제이다. 기존 연구와 비교하여, 본 ViLA 모델은 핵심적인 내용을 담고 있는 핵심 프레임을 선택하는 능력을 보이며, 추론 지연 시간을 줄이면서도 비디오-언어 정렬 정확도를 향상시킨다(NExT-QA Temporal에서 +3.3%의 정확도 향상과 3.0배의 속도 향상). 종합적으로, 본 ViLA 네트워크는 비디오 질문 응답 벤치마크에서 최신 기술을 초월한다: STAR Interaction에서 +4.6%, STAR 평균에서 +2.2%의 성능 향상과 함께 3.0배의 속도 향상 달성. 또한 VLEP 데이터셋에서는 본 모델의 2개 프레임이 SeViLA의 4개 프레임을 상회하며 4.2배의 속도 향상을 기록하였다. 코드는 https://github.com/xijun-cs/ViLA 에 공개될 예정이다.

ViLA: 비디오 질의 응답을 위한 효율적인 비디오-언어 정렬 | 최신 연구 논문 | HyperAI초신경