M3-Bench 장편 비디오 질의응답 벤치마크 데이터 세트
M3-Bench는 ByteDance Seed Team이 2025년에 발표한 긴 비디오 질의응답 벤치마크 데이터셋입니다. 관련 논문 결과는 다음과 같습니다.보기, 듣기, 기억하기, 추론하기: 장기 기억을 갖춘 다중 모드 에이전트"는 다중 모드 지능형 에이전트의 장기 기억 및 추론 능력을 평가하는 것을 목표로 합니다.
이 데이터 세트에는 1,020개의 비디오 샘플이 포함되어 있으며, 각 비디오 샘플에는 자막, 중간 출력, 그리고 메모리 맵이 포함되어 있습니다. M3-Bench는 긴 비디오 개방형 질의응답(VQA)을 핵심 과제로 사용하며, 각 비디오에는 일련의 개방형 질문이 함께 제공됩니다.
데이터 구성:
- M3-Bench-robot: 연구팀이 녹화한 실제 세계 시나리오(로봇의 관점에서)의 1인칭 영상 100개
- M3-Bench-web: 다양한 콘텐츠와 시나리오를 다루는 인터넷의 920개 긴 비디오