هل الاستدلال بالسياق المتسلسل في نماذج اللغة الكبيرة وهمًا؟ من منظور توزيع البيانات

أظهرت تقنية التوجيه بنمط السلسلة التفكيرية (Chain-of-Thought, CoT) تحسّن أداء النماذج اللغوية الكبيرة (Large Language Models, LLMs) في مهام متعددة. فعند تطبيق هذه الطريقة، تبدو النماذج اللغوية الكبيرة قادرة على إنتاج خطوات تفكير تشبه التفكير البشري قبل تقديم الإجابات (وهو ما يُعرف بـ "الاستنتاج التفكيري بنمط السلسلة")، مما يُعزز الانطباع بأنها تخضع لعمليات استنتاجية متعمدة. ومع ذلك، تشير بعض النتائج الأولية إلى أن هذا النوع من الاستنتاج قد يكون أعمق من الظاهر، ما يدفعنا إلى مزيد من الاستقصاء. في هذه الدراسة، نُحلل الاستنتاج التفكيري بنمط السلسلة من منظور توزيع البيانات، ونستكشف ما إذا كان يعكس انحيازاً استنتاجياً منظماً تعلّمته النموذج من بيانات التدريب المطابقة للنطاق (in-distribution)، ما يمكّن النموذج من إنتاج مسارات تفكير شرطية تُقلّد تلك التي شوهدت أثناء التدريب. وبالتالي، تكون فعالية هذه الطريقة محددة أساساً بدرجة التباين بين توزيع بيانات التدريب والاستفسارات في الاختبار. وباستخدام هذا الإطار التحليلي، نُفكك الاستنتاج التفكيري بنمط السلسلة من ثلاث زوايا: المهمة، والطول، والصيغة. ولدراسة كل بعد، صممنا "DataAlchemy"، وهي بيئة معزولة ومحكومة تُستخدم لتدريب النماذج اللغوية الكبيرة من الصفر، ونُجري تجارب استقصائية منهجية عليها تحت ظروف توزيع مختلفة. أظهرت النتائج أن الاستنتاج التفكيري بنمط السلسلة هو وهم هش يختفي بمجرد تجاوزه حدود توزيع بيانات التدريب. تقدم هذه الدراسة فهماً أعمق لسبب ووقت فشل الاستنتاج التفكيري بنمط السلسلة، مع التأكيد على التحدي المستمر المتمثل في تحقيق استنتاجات حقيقية وقابلة للتطبيق بشكل عام.