Command Palette

Search for a command to run...

UNO-Bench 전체 모달 평가 벤치마크 데이터 세트

날짜

6일 전

기관

논문 URL

2510.18915

라이선스

MIT

UNO-Bench는 Meituan의 LongCat 팀이 2025년에 발표한 최초의 통합 풀모달 평가 벤치마크입니다. 관련 논문의 제목은 "UNO-Bench: 옴니 모델에서 유니모달과 옴니모달 간의 구성 법칙을 탐색하기 위한 통합 벤치마크목표는 단일 모드와 다중 모드 이해 능력을 효율적으로 평가하는 것입니다.

이 데이터세트는 98% 교차 모달 해결 가능성을 가진 1,250개의 풀모달 샘플과 2,480개의 단일 모달 샘플을 포함하며, 44개의 과제 유형과 5개의 모달 조합을 포괄합니다. 또한, 이 데이터세트에는 6개의 문제 유형에 대한 자동 평가를 지원하는 일반 채점 모델이 포함되어 있어 다중 모달 과제에 대한 통합 평가 기준을 제공합니다. 풀모달 샘플은 실제 적용 사례와 매우 유사하도록, 특히 중국어 상황에 적합하도록 사람이 직접 신중하게 구성했습니다. 단일 모달 샘플은 기본적인 인지 및 능력 차원을 보완하여 전반적인 평가를 더욱 포괄적으로 만듭니다.

데이터 구조:

데이터는 Parquet 형식으로 저장되며, 각 샘플에는 구조화된 필드가 포함되어 있습니다.

  • qid(샘플 ID), subset_name(하위 집합 이름)
  • 질문(텍스트 질문)과 답변(표준 답변)
  • 이미지/오디오/비디오(멀티모달 콘텐츠, 파일 경로는 사전으로 저장됨, 없으면 null)
  • task(44개 작업 범주), ability(능력 유형), source(데이터 소스), score_type(점수 매기기 방법).
데이터 세트 예제

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
UNO-Bench 전체 모달 평가 벤치마크 데이터 세트 | 데이터셋 | HyperAI초신경