2달 전

Retrieving-to-Answer: Frozzen Large Language Models을 이용한 Zero-Shot 비디오 질문 응답

Junting Pan; Ziyi Lin; Yuying Ge; Xiatian Zhu; Renrui Zhang; Yi Wang; Yu Qiao; Hongsheng Li
Retrieving-to-Answer: Frozzen Large Language Models을 이용한 Zero-Shot 비디오 질문 응답
초록

비디오 질문 응답 (VideoQA)는 최근의 대형 언어 모델 (LLM, Large Language Model) 확장 덕분에 크게 발전했습니다. 주요 아이디어는 시각 정보를 언어 특성 공간으로 변환하여 LLM의 능력을 최대한 활용하는 것입니다. 기존의 VideoQA 방법은 일반적으로 두 가지 패러다임을 따릅니다: (1) 다중 모달 정렬 학습, (2) 사전 제작된 캡셔닝 모델을 사용하여 시각 데이터를 설명합니다. 그러나 첫 번째 설계는 많은 추가 다중 모달 데이터에 대한 비용이 많이 드는 훈련이 필요하며, 두 번째 방법은 제한적인 영역 일반화로 인해 더 제약을 받습니다.이러한 한계를 극복하기 위해 간단하면서도 효과적인 검색-응답 (R2A, Retrieving-to-Answer) 프레임워크가 제안되었습니다. 입력 비디오가 주어지면 R2A는 사전 훈련된 다중 모달 모델(예: CLIP)을 사용하여 일반 텍스트 코퍼스에서 의미적으로 유사한 텍스트 집합을 검색합니다. 질문과 검색된 텍스트 모두를 사용하면 LLM(예: DeBERTa)을 직접 사용하여 원하는 답변을 생성할 수 있습니다. 크로스-모달 미세 조정이 필요하지 않으므로 R2A는 모든 핵심 구성 요소(LLM, 검색 모델, 텍스트 코퍼스 등)를 플러그 앤 플레이 방식으로 활용할 수 있습니다.여러 VideoQA 벤치마크에서 수행된 광범위한 실험 결과, 13억 개의 매개변수와 미세 조정 없이도 R2A가 거의 21억 개의 다중 모달 데이터로 추가 훈련된 61배 더 큰 Flamingo-80B 모델보다 우수한 성능을 보이는 것으로 나타났습니다.

Retrieving-to-Answer: Frozzen Large Language Models을 이용한 Zero-Shot 비디오 질문 응답 | 최신 연구 논문 | HyperAI초신경