CoT-Self-Instruct: بناء مناشدات اصطناعية عالية الجودة للمهام الاستدلالية وغير الاستدلالية

نُقدِّم منهجية توليد بيانات اصطناعية تُسمى CoT-Self-Instruct، والتي تُوجِّه النماذج اللغوية الكبيرة (LLMs) إلى التفكير والتدبر أولًا باستخدام نموذج التفكير المتسلسل (Chain-of-Thought - CoT) استنادًا إلى مهام بذرة معطاة، ثم إلى إنتاج مُدخل اصطناعي جديد يتمتع بنفس جودة وتعقيد المهام الأصلية، وذلك لاستخدامه في تدريب النماذج اللغوية الكبيرة، متبوعًا بعملية تصفية البيانات عالية الجودة باستخدام مقاييس آلية. وفي مهام التفكير القابل للتحقق، تتفوّق بياناتنا الاصطناعية بشكل ملحوظ على المجموعات التدريبية الحالية، مثل s1k وOpenMathReasoning، في مجموعة اختبارات MATH500، AMC23، AIME24، وGPQA-Diamond. أما في مهام التوجيه غير القابل للتحقق، فإن منهجيتنا تتفوّق على أداء المدخلات البشرية أو المدخلات القياسية لتقنية Self-Instruct في كلا المعيارين AlpacaEval 2.0 وArena-Hard.