مجموعة بيانات الضبط الدقيق QwQ-LongCoT-130K
التاريخ
الحجم
الفئات
مجموعة البيانات QwQ-LongCoT-130K عبارة عن مجموعة بيانات SFT (الضبط الدقيق الخاضع للإشراف) مصممة لتدريب نماذج اللغة الكبيرة (LLMs) مثل O1. تتميز مجموعة البيانات بتركيزها على التفكير المتسلسل الطويل، مما يعني أنها لا تسعى فقط إلى توليد استجابات نصية طويلة، بل تركز أيضًا على قدرة الاستجابات المولدة على إظهار عمليات التفكير المتعمق والاستدلال المنطقي. تحتوي مجموعة البيانات هذه على ما يقرب من 130,000 حالة، كل منها عبارة عن استجابة تم إنشاؤها باستخدام نموذج QwQ-32B-Preview.
تتكون مجموعة بيانات QwQ-LongCoT-130K من حوالي 90000 عينة من NuminaMath وحوالي 43000 عينة تم إنشاؤها بواسطة Magpie. يخطط منشئو مجموعة البيانات لإضافة المزيد من بيانات Magpie مع العثور على المزيد من موارد الحوسبة. بالإضافة إلى ذلك، تحتوي مجموعة البيانات QwQ-LongCoT-130K على حالات أطول من حيث توزيع الطول مقارنة بمجموعة فرعية top_300k_longer_conversations من Magpie-Ultra.
أحد التحديات في بناء مجموعة البيانات QwQ-LongCoT-130K هو كيفية تنظيم تعليمات البذور التي تستحق حقًا التفكير في السلسلة الطويلة. لم يرغب منشئو مجموعة البيانات في أن تكون الاستجابات الناتجة عبارة عن أسئلة بسيطة مثل "ما لون السماء؟" وأراد أيضًا أن تكون الردود خالية من مشكلات حقوق النشر. لذلك، يتم جمع تعليمات البذور لمجموعة البيانات بطريقتين: يأتي جزء واحد من البيانات من مجموعة بيانات NuminaMath-CoT، التي تحتوي على 860,000 مسألة رياضية وإجاباتها، ويتم استخراج الجزء الآخر من نموذج QwQ-32B-Preview من خلال طريقة Magpie.