비디오 기반 생성 성능 벤치마킹 (정보의 정확성)
비디오 기반 생성 성능 평가 벤치마크(정보 정확성)는 생성 비디오 대화 모델의 정보 정확성을 평가하기 위한 벤치마크입니다. 이 작업은 ActivityNet-200 데이터셋을 기반으로 하며, 풍부하고 밀도 높은 설명적 캡션과 인간이 주석을 달아 생성한 질문-답변 쌍을 사용하여 테스트 세트를 구성합니다. GPT-3.5 모델을 활용하여 개발된 평가 파이프라인은 생성된 예측에 1-5의 상대 점수를 부여하여 비디오 대화에서의 정보 정확성을 양적화하고, 모델 최적화 및 성능 향상을 위한 과학적인 근거를 제공하는 것을 목표로 합니다.