تحسين نماذج اللغة الكبيرة على التفكير المنطقي من خلال مُحقق مُدرك للخطوات

التعلم القائم على عدد قليل من الأمثلة (Few-shot learning) هو مهمة صعبة تتطلب من النماذج اللغوية التعميم من عدد محدود من الأمثلة. وقد أحرزت النماذج اللغوية الكبيرة مثل GPT-3 وPaLM تقدماً ملحوظاً في هذا المجال، لكنها ما زالت تواجه صعوبات في المهام الاستنتاجية مثل GSM8K، وهي معيار معياري للمشكلات الحسابية. ولتحسين مهارات الاستنتاج لدى هذه النماذج، اقترح العمل السابق توجيه النموذج اللغوي باستخدام أوامر (prompts) تُحفّزه على إنتاج سلسلة من خطوات الاستنتاج قبل تقديم الإجابة النهائية، ما أدى إلى تحسين كبير في معدل حل المشكلات على GSM8K من 17.9% إلى 58.1%. في هذه الورقة، نقدّم DIVERSE (مُحقِّق متنوع للخطوات الاستنتاجية)، منهجية جديدة تُعزز بشكل إضافي قدرة النماذج اللغوية على الاستنتاج. يتميز DIVERSE بثلاثة مكونات رئيسية: أولاً، يُولّد أوامر متنوعة لاستكشاف مسارات استنتاجية مختلفة لنفس السؤال؛ ثانيًا، يستخدم مُحقِّقًا (verifier) لاستبعاد الإجابات الخاطئة بناءً على نظام تصويت موزون؛ ثالثًا، يتحقق من كل خطوة استنتاجية بشكل منفصل بدلاً من التحقق من السلسلة بأكملها. وقد قمنا بتقييم DIVERSE على أحدث نموذج لغوي، code-davinci-002، وتبين أنه حقق نتائج قياسية جديدة في ستة من أصل ثمانية معايير استنتاجية (مثل ارتفاع أداء GSM8K من 74.4% إلى 83.2%).