موجه بواسطة الأمعاء: التوسيع الفعال في وقت الاختبار مع تعزيز الثقة الذاتية

طرق تحسين التفكير في نماذج اللغات الكبيرة (LLM) أثناء الاختبار (TTS) غالبًا ما تتسبب في تكاليف حسابية كبيرة، وذلك بشكل رئيسي بسبب الاعتماد الشديد على نماذج المكافآت الخارجية (PRMs) أو طرق العينة مثل أفضل-N (BoN). يقدم هذا البحث إطار عمل TTS ذاتي الإرشاد فعالًا يُسمى "Guided by Gut" (GG)، والذي يصل إلى أداء مماثل لأداء نماذج PRM دون الحاجة إلى نماذج التحقق الخارجية الباهظة الثمن. يستخدم طريقة البحث هذه بحثًا شجريًا خفيف الوزن يتم إرشاده فقط بإشارات داخلية من LLM، مثل ثقة المستوى الرمزي وحداثة الخطوة. أحد الابتكارات الحاسمة هو تحسين موثوقية تقديرات الثقة الداخلية عبر مرحلة تعديل تعليمي تعزيزي مستهدف. تظهر التقييمات التجريبية على مقاييس صعبة للتفكير الرياضي أن GG يمكن أن تمكّن النماذج الأصغر (مثل تلك التي تحتوي على 1.5 مليار معلمة) من تحقيق دقة تطابق أو تتفوق على النماذج الأكبر بكثير (مثل تلك التي تحتوي على 32-70 مليار معلمة)، مع تقليل استخدام ذاكرة GPU بمقدار يصل إلى 10 أضعاف. بالمقارنة مع طرق PRM، يحقق GG دقة مماثلة بسرعات استدلال أسرع 8 أضعاف واستخدام ذاكرة أقل بنسبة 4-5 أضعاف. بالإضافة إلى ذلك، يقلل GG من استخدام ذاكرة كاش KV بنسبة حوالي 50% مقارنةً باستراتيجية BoN، مما يسهل تنفيذ أكثر كفاءة وعمليًا لتقنيات TTS.