PPLLaVA: 프롬프트 안내를 통한 다양한 비디오 시퀀스 이해

지난 해 동영상 기반 대형 언어 모델의 상당한 발전이 이루어졌습니다. 그러나 짧은 비디오와 긴 비디오 이해를 위한 통합 모델 개발의 도전은 아직 해결되지 않았습니다. 대부분의 기존 비디오 LLMs는 시간 단위의 긴 비디오를 처리할 수 없으며, 긴 비디오에 특화된 방법들은 짧은 비디오와 이미지에 대해 효과적이지 않은 경향이 있습니다. 본 논문에서는 이 문제의 핵심을 비디오 내 중복 내용으로 파악하였습니다. 이를 해결하기 위해, 토큰 압축과 명령 인식 시각적 특성 집계를 동시에 달성하는 새로운 풀링 전략을 제안합니다. 우리의 모델은 프롬프트 안내 풀링 LLaVA, 줄여서 PPLLaVA라고 명명되었습니다.구체적으로, PPLLaVA는 세 가지 핵심 구성 요소로 이루어져 있습니다: 사용자의 지시사항과 관련된 시각적 정보를 추출하는 CLIP 기반 시각-프롬프트 정렬, 컨벌루션 스타일 풀링을 사용하여 시각적 시퀀스를 임의의 스케일로 압축하는 프롬프트 안내 풀링, 그리고 시각 대화에서 자주 발생하는 긴 프롬프트를 위해 설계된 클립 컨텍스트 확장입니다. 또한, 우리의 코드베이스는 최신의 비디오 직접 선호도 최적화(Direct Preference Optimization, DPO) 및 시각적 교차 훈련을 통합하고 있습니다.범위넓은 실험을 통해 우리 모델의 성능이 검증되었습니다. 우수한 처리량과 1024개의 시각적 컨텍스트만으로도 PPLLaVA는 이미지 벤치마크에서 뛰어난 결과를 보이며, 다양한 비디오 벤치마크에서도 최고 수준의 성능을 달성하였습니다. 캡션 생성부터 다중 선택 질문까지 다양한 작업에서 우수한 성능을 보이며, 초 단위에서 시간 단위까지 모든 길이의 비디오를 처리할 수 있습니다. 코드는 https://github.com/farewellthree/PPLLaVA에서 확인할 수 있습니다.