QwQ-LongCoT-130K 데이터 세트는 O1과 같은 대규모 언어 모델(LLM)을 훈련하기 위해 설계된 SFT(Supervised Fine-Tuning) 데이터 세트입니다. 이 데이터 세트는 긴 사고의 추론에 초점을 맞춘다는 특징이 있습니다. 즉, 긴 텍스트 응답을 생성하는 데만 집중하는 것이 아니라 생성된 응답이 심층적인 사고 과정과 논리적 추론을 보여줄 수 있는지에도 중점을 둡니다. 이 데이터 세트에는 약 130,000개의 인스턴스가 포함되어 있으며, 각각은 QwQ-32B-Preview 모델을 사용하여 생성된 응답입니다.
QwQ-LongCoT-130K 데이터 세트는 NuminaMath에서 추출한 약 90,000개의 샘플과 Magpie에서 생성한 약 43,000개의 샘플로 구성되어 있습니다. 데이터 세트 작성자는 더 많은 컴퓨팅 리소스가 확보됨에 따라 더 많은 Magpie 데이터를 추가할 계획입니다. 또한, QwQ-LongCoT-130K 데이터 세트는 Magpie-Ultra의 top_300k_longer_conversations 하위 세트와 비교했을 때 길이 분포 측면에서 더 긴 인스턴스를 포함합니다.
QwQ-LongCoT-130K 데이터 세트를 구축하는 데 있어 과제 중 하나는 긴 사슬 사고 추론에 실제로 가치 있는 시드 지침을 큐레이션하는 방법입니다. 데이터 세트를 만든 사람들은 생성된 응답이 "하늘은 무슨 색인가요?"와 같은 간단한 질문이 되기를 원하지 않았습니다. 또한 응답에 저작권 문제가 없기를 원했습니다. 따라서 데이터 세트의 시드 명령어는 두 가지 방법을 통해 수집됩니다. 한 부분은 860,000개의 수학 문제와 답이 포함된 NuminaMath-CoT 데이터 세트에서 가져오고, 다른 부분은 Magpie 방법을 통해 QwQ-32B-Preview 모델에서 추출합니다.