منذ 2 أشهر

QFFT، التعديل الدقيق بدون أسئلة للمنطق التكيفي

Wanlong Liu, Junxiao Xu, Fei Yu, Yukang Lin, Ke Ji, Wenyu Chen, Yan Xu, Yasheng Wang, Lifeng Shang, Benyou Wang

الملخص

التطورات الحديثة في نماذج الاستدلال ذات السلسلة الطويلة (Long Chain-of-Thought - CoT) قد أحدثت تحسينات في الأداء على المهام المعقدة، لكنها تعاني من الإفراط في التفكير، مما يؤدي إلى إنتاج خطوات استدلال زائدة، خاصة بالنسبة للأسئلة البسيطة. يعيد هذا البحث النظر في أنماط الاستدلال لنماذج CoT الطويلة والقصيرة، ملاحظًا أن الأنماط القصيرة تقدم استدلالًا موجزًا بكفاءة، بينما تتفوق الأنماط الطويلة في السيناريوهات الصعبة حيث تواجه الأنماط القصيرة صعوبات. لتمكين النماذج من الاستفادة من كلا النمطين، نقترح تقنية التعديل الدقيق بدون سؤال (Question-Free Fine-Tuning - QFFT)، وهي طريقة تعديل دقيق تزيل السؤال المدخل أثناء التدريب وتتعلم حصريًا من réponses CoT الطويلة. هذه التقنية تمكّن النموذج من استخدام كلا النمطين بشكل متكيف: فهي تعطي الأولوية للأنماط القصيرة وتنشِّط الأنماط الطويلة فقط عند الضرورة. أظهرت التجارب على مجموعة متنوعة من قواعد بيانات الرياضيات أن QFFT تقلل من طول الردود المتوسط بنسبة تزيد عن 50٪، مع تحقيق أداء مشابه لتقنية التعديل الدقيق تحت الإشراف (Supervised Fine-Tuning - SFT). بالإضافة إلى ذلك، أثبتت QFFT فعالية أفضل مقارنة بـ SFT في السيناريوهات الضوضائية وخارجة المجال وفي حالات الموارد المحدودة.