ShotBench: 비전-언어 모델에서 전문가 수준의 시네마틱 이해

영화의 근본적인 시각적 언어인 촬영술은 서사, 감정, 그리고 미적 품질을 전달하는 데 필수적입니다. 최근의 비전-언어 모델(Vision-Language Models, VLMs)들은 강력한 일반적인 시각 이해력을 보여주지만, 개별 샷 내에 내재된 섬세한 영화 문법을 이해하는 능력은 아직 충분히 탐구되지 않았으며, 견고한 평가가 부족합니다. 이 중요한 간극은 세밀한 시각 이해와 AI 지원 비디오 생성의 정확성을 제한합니다. 이를 해결하기 위해, 우리는 영화 언어 이해를 위한 포괄적인 벤치마크인 ShotBench를 소개합니다. 이 벤치마크는 200여 편의 명작(주로 아카데미 후보작)에서 선별된 3,500개 이상의 전문가 주석 QA 쌍을 포함하며, 여덟 가지 핵심 촬영술 차원을 아우르고 있습니다. 24개 주요 VLMs를 ShotBench에서 평가한 결과, 이들 모델이 상당한 한계를 가지고 있음을 확인할 수 있었습니다: 최상위 성능 모델조차도 평균 정확도가 60% 미만으로, 특히 세밀한 시각 신호와 복잡한 공간 추론에 어려움을 겪었습니다. 이 영역의 발전을 촉진하기 위해, 우리는 약 70,000개의 영화 QA 쌍으로 구성된 대규모 다중모드 데이터셋인 ShotQA를 구축했습니다. ShotQA를 활용하여 감독 학습 미세 조정과 그룹 상대 정책 최적화를 통해 ShotVL을 개발하였습니다. ShotVL은 ShotBench에서 모든 기존 오픈 소스 및 독점 모델보다 크게 우수한 성능을 보여주며, 새로운 최신 기술(state-of-the-art) 성능을 달성하였습니다. 우리는 이러한 중요한 AI 주도 영화 이해 및 생성 분야에서 신속한 진전을 촉진하기 위해 우리의 모델, 데이터, 코드를 오픈 소스로 공개합니다.