Command Palette
Search for a command to run...
UNO-Bench 전체 모달 평가 벤치마크 데이터 세트
UNO-Bench는 Meituan의 LongCat 팀이 2025년에 발표한 최초의 통합 풀모달 평가 벤치마크입니다. 관련 논문의 제목은 "UNO-Bench: 옴니 모델에서 유니모달과 옴니모달 간의 구성 법칙을 탐색하기 위한 통합 벤치마크목표는 단일 모드와 다중 모드 이해 능력을 효율적으로 평가하는 것입니다.
이 데이터세트는 98% 교차 모달 해결 가능성을 가진 1,250개의 풀모달 샘플과 2,480개의 단일 모달 샘플을 포함하며, 44개의 과제 유형과 5개의 모달 조합을 포괄합니다. 또한, 이 데이터세트에는 6개의 문제 유형에 대한 자동 평가를 지원하는 일반 채점 모델이 포함되어 있어 다중 모달 과제에 대한 통합 평가 기준을 제공합니다. 풀모달 샘플은 실제 적용 사례와 매우 유사하도록, 특히 중국어 상황에 적합하도록 사람이 직접 신중하게 구성했습니다. 단일 모달 샘플은 기본적인 인지 및 능력 차원을 보완하여 전반적인 평가를 더욱 포괄적으로 만듭니다.
데이터 구조:
데이터는 Parquet 형식으로 저장되며, 각 샘플에는 구조화된 필드가 포함되어 있습니다.
- qid(샘플 ID), subset_name(하위 집합 이름)
- 질문(텍스트 질문)과 답변(표준 답변)
- 이미지/오디오/비디오(멀티모달 콘텐츠, 파일 경로는 사전으로 저장됨, 없으면 null)
- task(44개 작업 범주), ability(능력 유형), source(데이터 소스), score_type(점수 매기기 방법).
