التفكير العميق بثقة

أظهرت النماذج اللغوية الكبيرة (LLMs) إمكانات كبيرة في مهام الاستنتاج باستخدام طرق التوسيع أثناء الاختبار، مثل الطريقة ذات الاتساق الذاتي مع التصويت بالأغلبية. ومع ذلك، فإن هذا النهج غالبًا ما يؤدي إلى عائدات متناقصة في الدقة، بالإضافة إلى عبء حسابي مرتفع. ولحل هذه التحديات، نقدّم طريقةً بسيطة ولكنها قوية تُسمى "التفكير العميق مع الثقة" (DeepConf)، والتي تعزز من كفاءة الاستنتاج والأداء أثناء الاختبار. تعتمد DeepConf على إشارات الثقة الداخلية في النموذج لتصفية ديناميكية للمسارات الاستنتاجية منخفضة الجودة أثناء أو بعد التوليد. ولا تتطلب هذه الطريقة أي تدريب إضافي للنموذج أو ضبط معلمات فائقة، ويمكن دمجها بسلاسة في الأطر الحالية للتشغيل. وقد قُمنا بتقييم DeepConf على مجموعة متنوعة من مهام الاستنتاج، والنماذج المفتوحة المصدر الحديثة، بما في ذلك نماذج Qwen 3 وسلسلة GPT-OSS. وبشكل لافت، حققت DeepConf@512 دقة تصل إلى 99.9% على معايير صعبة مثل AIME 2025، مع خفض عدد الرموز المولدة بنسبة تصل إلى 84.7% مقارنةً بالتفكير المتوازي الكامل.