비디오 기반 생성 성능 벤치마킹 (일관성)
"비디오 기반 생성 성능 벤치마킹 (일관성)"은 생성 비디오 대화 모델의 일관성을 평가하기 위해 설계된 벤치마킹 작업입니다. 이 작업은 풍부한 밀도의 설명적 캡션과 사람에 의해 주석이 달린 질문-답변 쌍을 통해 구성된 ActivityNet-200 데이터셋을 기반으로 합니다. GPT-3.5 모델을 활용하여 개발된 평가 파이프라인을 사용하여 생성된 예측에 대해 1-5 점의 상대적인 점수를 제공합니다. 이 작업의 목적은 여러 라운드의 대화에서 정보 일관성과 논리적 일관성을 유지하는 모델의 능력을 측정하고, 비디오 대화 시스템의 성능 최적화를 위한 중요한 참고 자료를 제공하는 것입니다.