Command Palette

Search for a command to run...

FineReason 다중 모달 시각적 추론 데이터 세트

날짜

13시간 전

기관

오픈데이터아레나

라이선스

MIT

Discord 커뮤니티 참여

FineReason은 OpenDataArena에서 2025년에 공개한 대규모 멀티모달 모델(LMM)의 시각적 추론 성능을 훈련하고 평가하기 위한 데이터셋입니다. 시각적 퍼즐, 게임, 복잡한 그래프 추론, STEM(과학, 기술, 공학, 수학) 지식 응용 분야와 같은 시나리오에서 모델의 해석 가능하고 검증 가능한 롱체인 추론 성능을 향상시키는 것을 목표로 합니다.

이 데이터셋은 기하 문제(geometry3k/geo170k), 다이어그램 및 흐름도 이해(AI2D), 시각적 추론 및 관찰 퍼즐(visualwebinstruct 등)을 포함한 다양한 유형의 과제를 다룹니다. 모든 샘플은 고유 ID, 질문 텍스트, 해당 이미지, 추론 기반 답변을 포함한 동일한 데이터 형식을 사용합니다. 이 데이터셋은 여러 공개 하위 집합에서 수집되었으며, 추론 체인은 Qwen3-VL-235B-a22B-thinking 모델을 사용하여 정제되어 모든 샘플이 명확하게 구조화되고 검증 가능한 단계별 추론 프로세스와 최종 해결책을 갖도록 합니다.

데이터 구성(지속적으로 확장):

  • BMMR: 42,647개 항목
  • Euclid30K: 27,111개 항목
  • ai2d_merged: 2,446개 항목
  • geo170k (Q&A): 12,101개 결과
  • geometry3k / mathv360k: 9,724개 결과
  • ScienceQA: 6,146개 결과
  • TQA(TextbookQA): 12,565개 항목
  • VisualWebInstruct(필터링됨): 261,436개 결과
  • MMR1: 1,000개
  • VisualSphinx: 3,781개 결과
  • MMOpenR1-8K: 7,428개 항목

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp