VRC-Bench 시각 추론 벤치마크 데이터 세트
VRC-Bench는 다중 모드 단계별 추론 작업을 위해 특별히 설계된 최초의 벤치마크입니다. 복잡한 추론 시나리오에서 모델의 성능을 종합적으로 평가하는 것을 목표로 합니다. 이 기술은 2025년에 모하메드 빈 자이드 인공지능 대학, 센트럴 플로리다 대학, 린셰핑 대학, 호주 국립 대학에서 출시되었습니다. 관련 논문 결과는 "LlamaV-o1: LLM에서 단계별 시각적 추론 재고". 최종 결과의 정확도에만 초점을 맞추는 기존 벤치마크와 달리, VRC-Bench는 각 추론 단계의 품질 평가에 중점을 두어 모델 성능에 대한 더욱 상세한 평가를 제공합니다.
이 데이터 세트는 시각적 추론, 수학적 및 논리적 추론, 과학적 추론, 문화적 및 사회적 이해 등 8개 분야의 과제를 포괄합니다. 이러한 작업에는 복잡한 시각적 인식, 과학적 추론, 의료 이미지 해석 및 기타 시나리오가 포함되며 4,000개 이상의 수동으로 검증된 추론 단계가 포함되어 있어 다단계 추론에서 모델의 정확성과 논리적 일관성을 종합적으로 평가할 수 있습니다.

VRC-Bench.torrent
시딩 1다운로드 중 1완료됨 33총 다운로드 횟수 63