비디오 기반 생성 성능 벤치마킹 (시간적 이해)

"비디오 기반 생성적 성능 벤치마킹 (시간적 이해)"은 생성형 비디오 대화 모델의 시간적 이해 능력을 평가하기 위해 설계된 벤치마킹 작업입니다. 이 작업은 풍부한 밀도의 설명적 캡션과 인간이 주석을 단 질문-답변 쌍을 포함하는 ActivityNet-200 데이터셋을 기반으로 테스트 세트를 구성합니다. GPT-3.5 모델을 사용하여 개발된 평가 파이프라인은 생성된 예측에 대해 1에서 5 사이의 상대적인 점수를 제공하며, 모델이 비디오 타임라인을 따라 내용을 이해하고 생성하는 능력을 종합적으로 측정하는 것을 목표로 합니다. 이를 통해 인간-컴퓨터 상호작용 경험을 향상시키는 데 기여합니다."

VideoInstruct

Video-ChatGPT