대형 언어 모델에서 비디오 표현 학습

우리는 LaViLa를 소개합니다. 이는 대형 언어 모델(LLMs)을 활용하여 비디오-언어 표현을 학습하는 새로운 접근 방식입니다.事前学習된 LLMs를 시각적 입력에 조건부로 재활용하고, 이를 미세 조정(finetune)하여 자동 비디오 해설가를 생성합니다. 우리의 자동 생성된 해说是提供多种优势,包括对长视频的密集覆盖、视觉信息和文本之间更好的时间同步以及文本的更高多样性。通过这些额外的自动生成叙述以对比方式学习到的视频-文本嵌入在多个第一人称和第三人称视频任务中超越了以往的最先进水平,无论是在零样本(zero-shot)还是微调(finetuned)设置下。特别是在EGTEA 분류 및 Epic-Kitchens-100 다중 인스턴스 검색 벤치마크에서 LaViLa는 각각 절대적인 성능 향상 10.1%와 5.9%를 기록하였습니다. 또한, Ego4D 데이터셋의 절반만으로 훈련된 LaViLa는 전체 데이터로 훈련된 기준 모델보다 우수한 성능을 보였으며, 사전 훈련 데이터와 모델 크기의 증가에 따른 긍정적인 확장성을 나타냈습니다.注:由于原文中的“事前学習された”和“解說”是日语词汇,可能是误输入。正确的翻译应该是:우리는 LaViLa를 소개합니다. 이는 대형 언어 모델(LLMs)을 활용하여 비디오-언어 표현을 학습하는 새로운 접근 방식입니다. 사전 훈련된 LLMs를 시각적 입력에 조건부로 재활용하고, 이를 미세 조정(finetune)하여 자동 비디오 해설가를 생성합니다. 우리의 자동 생성된 해설은 여러 가지 장점을 제공하며, 이에는 장시간 비디오의 밀도 높은 커버리지, 시각 정보와 텍스트 간의 더 나은 시간 동기화, 그리고 텍스트의 다양성 증가가 포함됩니다. 이러한 추가적인 자동 생성된 서술과 대조적으로 학습된 비디오-텍스트 임베딩은 제로 샷(zero-shot) 및 미세 조정(finetuned) 설정 모두에서 여러 첫 번째 인칭 및 세 번째 인칭 비디오 작업에서 이전 최고 수준을 넘어섰습니다. 특히 EGTEA 분류 및 Epic-Kitchens-100 다중 인스턴스 검색 벤치마크에서 LaViLa는 각각 10.1%와 5.9%의 절대적인 성능 개선을 보였습니다. 또한, Ego4D 데이터셋의 절반만으로 훈련된 LaViLa는 전체 데이터로 훈련된 기준 모델보다 우수한 성능을 보였으며, 사전 훈련 데이터와 모델 크기의 증가에 따른 긍정적인 확장성을 나타냈습니다.