منذ 11 أيام

التحفيز التدريجي بالتلميحات يُحسّن الاستدلال في نماذج اللغة الكبيرة

Chuanyang Zheng, Zhengying Liu, Enze Xie, Zhenguo Li, Yu Li

الملخص

يعتمد أداء نماذج اللغة الكبيرة (LLMs) في مهام الاستدلال بشكل كبير على تصميم المدخلات (prompt)، حيث تُعد طريقة السلسلة من التفكير (Chain-of-Thought - CoT) والاتساق الذاتي (self-consistency) من الأساليب الحاسمة التي تعزز هذه القدرة. ومع ذلك، فإن هذه الأساليب لا تستغل بالكامل الإجابات التي تُولّدها نموذج اللغة الكبيرة لتوجيه الاستجابات اللاحقة. يقترح هذا البحث منهجية جديدة لتصميم المدخلات تُسمى "التحفيز التدريجي" (Progressive-Hint Prompting - PHP)، والتي تسمح بتفاعلات متعددة تلقائية بين المستخدم والنموذج من خلال استخدام الإجابات السابقة كمؤشرات (hints) لتوجيه الاستجابة تدريجيًا نحو الإجابة الصحيحة. تُعتبر PHP متعامدة مع CoT والاتساق الذاتي، مما يجعل من السهل دمجها مع التقنيات الرائدة لتحسين الأداء بشكل أكبر. أجرينا تجارب واسعة وشاملة على سبعة معايير (benchmarks). وأظهرت النتائج أن PHP تحسن بشكل كبير من الدقة مع الحفاظ على الكفاءة العالية. على سبيل المثال، باستخدام النموذج text-davinci-003، لاحظنا تحسنًا بنسبة 4.2% في دقة GSM8K عند استخدام الترميز المُبَيَّت (greedy decoding) مقارنةً بـ Complex CoT، وانخفاضًا بنسبة 46.17% في عدد المسارات العينية (sample paths) عند استخدام الاتساق الذاتي. وبالاعتماد على نموذج GPT-4 وPHP، حققنا أداءً رائدًا على المستويات (state-of-the-art) في SVAMP (89.1% ← 91.9%)، GSM8K (92% ← 95.5%)، AQuA (76.4% ← 79.9%)، وMATH (50.3% ← 53.9%).