ZeroSearch 질문 답변 데이터 세트
ZeroSearch는 Alibaba Tongyi Lab이 2025년에 공개한 고품질 질의응답 데이터 세트로, 외부 검색 없이도 질문에 직접 답할 수 있는 모델 역량을 구축하는 데 중점을 두고 있습니다. 관련 논문 결과는 다음과 같습니다.ZeroSearch: 검색 없이 LLM의 검색 능력에 대한 인센티브 제공".
이 데이터 세트에는 과학적 지식, 역사적 사건, 영화 및 TV 엔터테인먼트, 지리, 인문학 등 다양한 지식 분야를 포괄하는 약 17만 개의 샘플이 포함되어 있습니다. 이 데이터 세트는 사실 관련 질문, 정의 관련 질문, 참/거짓 관련 질문 등을 다루며, 소규모 및 중규모 질문 답변 모델을 훈련하는 데 적합합니다. 신중하게 설계된 질문-답변 쌍을 통해 모델의 상식적 추론, 사실적 기억, 논리적 추론 능력을 평가하고, 자연어 처리 분야에 대한 표준화된 교육 및 테스트 리소스를 제공하는 것을 목표로 합니다.