퍼셉션 테스트: 다중모달 비디오 모델을 위한 진단 기준

우리는 사전 훈련된 다중모달 모델(예: Flamingo, SeViLA, 또는 GPT-4)의 인지 및 추론 능력을 평가하기 위해 새로운 다중모달 영상 벤치마크인 'Perception Test'를 제안한다. 기존의 분류, 탐지, 추적과 같은 계산 중심의 태스크에 집중하는 벤치마크들과 달리, Perception Test는 영상, 음성, 텍스트 모달리티를 아우르는 기억, 추상화, 물리적 이해, 의미적 이해 등 인지 능력과 기술적 추론(기술적, 설명적, 예측적, 반사적)의 유형에 초점을 맞추어 종합적이고 효율적인 평가 도구를 제공한다. 본 벤치마크는 제로샷/페이샷 또는 제한된 피니팅 환경에서 사전 훈련된 모델의 전이 능력을 평가하기 위해 설계되었다. 이를 위해 Perception Test는 전 세계 약 100명의 참여자들이 촬영한 11,600개의 실제 세계 영상(평균 길이 23초)을 포함하며, 시각적으로 흥미로운 상황을 보여주도록 설계되었다. 이 영상들은 다중선택 및 영상 기반 질문-답변, 객체 및 점 트래킹, 시계열 동작 및 소리 세그먼트 등 총 6종류의 레이블로 밀도 있게 주석 처리되어 있으며, 언어적 및 비언어적 평가 모두를 가능하게 한다. 벤치마크의 피니팅 및 검증 데이터셋은 공개적으로 제공되며(CC-BY 라이선스), 보류된 테스트 세트를 갖춘 챌린지 서버도 함께 제공된다. 최신 영상 질의응답 모델들과의 인간 기준 성능 비교 결과(91.4% 대 46.2%)는 다중모달 영상 이해 분야에서 여전히 큰 성능 개선 여지가 있음을 시사한다.데이터셋, 베이스라인 코드, 챌린지 서버는 https://github.com/deepmind/perception_test 에서 확인할 수 있다.