Command Palette

Search for a command to run...

UQ 미해결 질문 데이터 세트

날짜

2달 전

기관

스탠포드 대학
워싱턴대학교

논문 URL

2508.17580

라이선스

CC BY-SA 4.0

Discord 커뮤니티 참여

*이 데이터 세트는 온라인 사용을 지원합니다.여기를 클릭하여 이동하세요.

UQ 데이터셋은 스탠퍼드 대학교, 워싱턴 대학교, 노스캐롤라이나 대학교 및 기타 기관들이 2025년에 발표한 평가 기준입니다. 관련 논문 결과는 다음과 같습니다.UQ: 미해결 문제에 대한 언어 모델 평가"는 인간 사회가 아직 답하지 못한 현실적이고 어려운 "문제"를 사용하여 최첨단 대형 모델의 추론, 사실성 및 검색 기능을 평가하는 것을 목표로 합니다.

이 데이터셋은 Stack Exchange 플랫폼에서 오랫동안 답변되지 않은 500개의 질문으로 구성되어 있으며, 컴퓨터 과학 이론, 수학, 공상 과학, 역사 등의 주제를 다룹니다. "규칙 필터링 + LLM 검토 + 수동 검토" 수집 파이프라인을 채택했으며, 후보 답변에 대한 자동 사전 검토 및 커뮤니티 검토를 위한 UQ-Validator를 갖추고 있습니다. 어렵지만 현실적인, 비동기 평가, 그리고 생성-검증 분리라는 특징을 가지고 있습니다. 최첨단 모델의 추론/검색 평가, 장기 진행 상황 추적, 공개 순위와 같은 시나리오에 적합합니다.

데이터 분포:

  • 과학: 395
  • 기술: 52
  • 문화 및 레크리에이션: 16
  • 삶과 예술: 35
데이터셋 구축 과정

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
UQ 미해결 질문 데이터 세트 | 데이터셋 | HyperAI초신경