فكّر-بشكلٍ صعب: تكرارات مُحَدَّدة في المساحة الخفية لتحسين نماذج اللغة الاستنتاجية
Tianyu Fu Yichen You Zekai Chen Guohao Dai Huazhong Yang Yu Wang

الملخص
تحسين قدرات الاستدلال في النماذج اللغوية الكبيرة (LLMs)، وخاصة ضمن قيود على عدد المعاملات، يُعد أمرًا بالغ الأهمية للتطبيقات الواقعية. وقد اقترح البحث السابق نماذج التحويلات المتكررة (recurrent transformers)، التي تخصص عددًا ثابتًا من التكرارات الإضافية لكل رمز لتحسين جودة التوليد. بعد التمرير الأمامي الأول، القياسي، بدلًا من التوليد الفوري للكلمات، يتم إعادة إدخال الحالات المخفية في الطبقة الأخيرة كمدخلات لدورات إضافية بهدف تحسين تنبؤات الرموز. ومع ذلك، نلاحظ ظاهرة "التفكير الزائد الخفية" (latent overthinking): حيث يتم في بعض الأحيان تعديل تنبؤات الرموز السهلة التي كانت صحيحة بالفعل بعد التمرير الأول إلى أخطاء خلال التكرارات الإضافية. ولحل هذه المشكلة، نقترح طريقة التفكير عند الصعوبة (Think-at-Hard، TaH)، وهي طريقة ديناميكية للتفكير الخفي، تُجري تكرارات أعمق فقط على الرموز الصعبة. تعتمد هذه الطريقة على قرار عصبي خفيف الوزن (lightweight neural decider) لتفعيل التكرارات الخفية فقط على الرموز التي يُحتمل أن تكون خاطئة بعد التمرير الأمامي القياسي. خلال التكرارات الخفية، تقوم وحدات التكييف ذات الرتبة المنخفضة (LoRA) بتغيير هدف النموذج من التنبؤ العام بالرمز التالي إلى تحسين مركّز للرموز الصعبة. كما نقدّم آلية انتباه زوجية السببية (duo-causal attention) التي تمتد من بعد تسلسل الرموز إلى بعد إضافي يمثل عمق التكرار. هذا يسمح بتدفق المعلومات بين التكرارات مع الحفاظ على التوازي الكامل في المعالجة التسلسلية. تُظهر التجارب أن TaH يعزز أداء النماذج اللغوية الكبيرة في الاستدلال عبر خمسة معايير صعبة، مع الحفاظ على نفس عدد المعاملات. مقارنةً بالأساليب الأساسية التي تكرر التمرير مرتين لكل رمز من الرموز، تُحقق TaH مكاسب في الدقة تتراوح بين 8.1% إلى 11.3%، مع استبعاد 94% من الرموز من التكرار الثاني. مقابل نماذج Qwen3 ذات التكرار الواحد المُدرّبة بنفس البيانات، تُظهر TaH مكاسب في الدقة تتراوح بين 4.0% إلى 5.0%. وعند السماح بزيادة أقل من 3% في عدد المعاملات من خلال LoRA ووحدة التحكم في التكرار، ترتفع المكاسب إلى 8.5%–12.6% و5.3%–5.4% على التوالي. يُمكن الاطلاع على الكود الخاص بنا عبر الرابط: https://github.com/thu-nics/TaH.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.