STaR: توليد الاستنتاج من خلال الاستنتاج

يُحسّن إنشاء سلسلة خطوات تفكير منظمة ("سلسلة التفكير") أداء نماذج اللغة على المهام المعقدة التي تتطلب تفكيرًا منطقيًا، مثل حل المسائل الرياضية أو الإجابة على الأسئلة المبنية على المنطق العام. ومع ذلك، يتطلب حاليًا إجبار نموذج اللغة على إنتاج تبريرات تفكير إما عبر بناء مجموعات بيانات ضخمة من التبريرات، أو التضحية بالدقة من خلال استخدام الاستدلال بعينات قليلة فقط. نقترح تقنية تقوم على استغلال تدريجي لعدد صغير من الأمثلة التبريرية وبيانات ضخمة دون تبريرات، بهدف تنشيط قدرة النموذج على إجراء تفكير متزايد التعقيد تدريجيًا. وتُعرف هذه التقنية باسم "المُفكّر ذاتي التعلّم" (STaR)، وتعتمد على حلقة بسيطة: توليد تبريرات للإجابة على عدد كبير من الأسئلة، مُحفّزة بعينات قليلة من التبريرات؛ وإذا كانت الإجابات المولدة خاطئة، نعيد المحاولة لتوليد تبرير جديد مع إعطاء الإجابة الصحيحة كمُحفّز؛ ثم نُعدّل النموذج على جميع التبريرات التي أدت في النهاية إلى إجابات صحيحة؛ ثم نكرر العملية. نُظهر أن STaR يُحسّن أداء النموذج بشكل ملحوظ على عدة مجموعات بيانات مقارنة بنموذج تم تدريبه مباشرة على التنبؤ بالإجابات النهائية، كما يُحقق أداءً يُشابه أداء تدريب نموذج لغة حديث متقدّم بحجم 30 مرة أكبر على مجموعة بيانات CommensenseQA. وبهذا، تُمكّن STaR النموذج من تحسين ذاته من خلال التعلّم من تبريراته التي يُولّدها بنفسه.