비디오 기반 생성 성능 벤치마킹

비디오 기반 생성 성능 벤치마킹은 비디오 대화 모델의 생성 성능을 정보 정확성, 세부 사항 지향성, 맥락 이해, 시간적 이해, 그리고 일관성이라는 다섯 가지 핵심 측면을 통해 종합적으로 평가하기 위한 벤치마크 작업입니다. 이 작업은 풍부하고 밀도 높게 설명된 비디오와 관련된 사람 주석 질문-답변 쌍을 포함하는 ActivityNet-200 데이터셋을 기반으로 테스트 세트를 구성합니다. 또한 GPT-3.5 모델을 활용하여 생성된 예측에 대해 1에서 5까지의 상대적인 점수를 제공하는 점수화 파이프라인을 개발합니다. 이 벤치마크 작업은 비디오 대화 모델의 개발과 최적화를 촉진하여 실제 응용 프로그램에서의 성능을 향상시키는 데 도움을 줍니다.