초록

동적 장면 간의 시각적 차이를 이해하기 위해서는 구성, 공간적, 시간적 변화를 비교적 인지하는 능력이 필요하다. 그러나 기존의 시각-언어 시스템에서는 이러한 능력이 여전히 탐색되지 않은 영역이다. 이전의 이미지 차이 설명(Image Difference Captioning, IDC) 연구는 정적 이미지 간의 의미적 변화를 기술할 수 있는 모델을 가능하게 했지만, 이러한 접근 방식은 시간에 따른 운동의 연속성, 이벤트의 진화, 편집의 일관성을 포착하지 못한다. 본 연구에서는 비디오 차이 설명(Video Difference Captioning, ViDiC) 태스크와 이를 위한 ViDiC-1K 데이터셋을 제안한다. 이는 다모달 대규모 언어 모델(Multimodal Large Language Models, MLLMs)이 비디오 쌍 간의 유사성과 차이를 세밀하게 기술하는 능력을 평가할 수 있도록 설계되었다. ViDiC-1K는 1,000개의 정교하게 선별된 비디오 쌍으로 구성되며, 총 4,000개 이상의 비교 체크리스트 항목을 포함하고 있으며, 주제, 스타일, 배경, 영상 촬영 기법, 운동, 장소, 재생 기법 등 총 7개 범주를 다룬다. 신뢰성 있는 평가를 위해, LLM-as-a-Judge 프로토콜에 기반하여 유사성과 차이점의 정확도를 별도로 측정하는 이중 체크리스트 프레임워크를 제안한다. 대표적인 19개의 다모달 모델에 대한 실험 결과, 비교적 설명 능력과 차이 인지 능력 간에 뚜렷한 성능 격차가 확인되었다. 우리는 ViDiC-1K가 다모달 지능 분야에서 비디오 이해, 편집 인식, 비교적 추론 능력을 발전시키기 위한 도전적인 기준이 될 수 있기를 기대한다.

소스 PDF