WebInstruct에서 검증된 다중 도메인 추론 데이터 세트
WebInstruct-verified는 워털루 대학교와 벡터 연구소가 2025년에 공동으로 발표한 다중 도메인 추론 데이터 세트입니다. 관련 논문 결과는 다음과 같습니다.일반 추론: 모든 도메인에서 LLM 추론 발전"는 수학 분야의 강점을 유지하면서 다양한 분야에서 LLM의 추론 능력을 향상시키는 것을 목표로 합니다.
이 데이터셋은 약 23만 개의 추론 문제를 포함하고 있으며, 객관식 문제와 수치 표현 데이터셋의 균형 잡힌 분포를 포함한 다양한 답변 형식을 포함합니다. 이 데이터셋은 주로 수학, 물리학, 화학, 금융, 그리고 기타 다양한 인문학 및 사회과학 분야를 다룹니다.
데이터 세트 특성:
- 제로 RL 훈련: 중간 감독 단계를 건너뛰고 기본 LLM에서 직접 강화 학습을 수행합니다.
- 다양한 추론 데이터: 웹에서 수집한 23만 개 이상의 고품질 검증 가능한 질문이 여러 학문 분야에서 답변 검증을 위해 필터링되었습니다.
- 모델 기반 검증기: 컨텍스트 인식, 사고 사슬 답변 검증을 위한 1.5B 크기의 컴팩트한 생성 검증기 모델로, 기존의 규칙 기반 접근 방식보다 성능이 뛰어납니다.
