비디오 기반 생성 성능 벤치마킹 (세부 지향성)

비디오 기반 생성적 성능 평가 벤치마크 (세부 지향성)는 생성형 비디오 대화 모델의 세부 지향적 능력을 평가하기 위한 벤치마크입니다. 이 작업은 ActivityNet-200 데이터셋을 기반으로, 풍부하고 밀도 높은 인간 주석이 달린 설명문과 관련된 질문-답변 쌍으로부터 테스트 세트를 구성합니다. GPT-3.5 모델을 사용하여 생성된 예측에 대해 1-5점의 상대적인 점수를 제공하는 평가 파이프라인을 개발합니다. 이 벤치마크의 목적은 모델이 세부 사항을 이해하고 표현하는 정확성과 일관성을 향상시키는 것이며, 비디오 대화 시스템의 성능 최적화를 위한 중요한 참고 자료를 제공합니다.

VideoInstruct