قياس وتقليص الفجوة في التراكيبية في نماذج اللغة

نُجري دراسة حول قدرة النماذج اللغوية على أداء مهام الاستدلال التجميعي، حيث يعتمد الحل العام على تجميع الإجابات الصحيحة على المشكلات الفرعية بشكل صحيح. نقيس مدى تكرار قدرة النماذج على الإجابة بشكل صحيح على جميع المشكلات الفرعية دون القدرة على إنتاج الحل العام، ونُطلق على هذه النسبة اسم "الفجوة التجميعية". نقيّم هذه النسبة من خلال طرح أسئلة متعددة الخطوات تتطلب تجميع معلومات متعددة، وهي معلومات من غير المرجح أن تكون قد وُجهت معًا خلال مرحلة التدريب المسبق. في عائلة نماذج GPT-3، نُظهر أنه مع زيادة حجم النموذج، تتحسن أداء النماذج في الإجابة على الأسئلة ذات الخطوة الواحدة بشكل أسرع من أداءها في الإجابة على الأسئلة متعددة الخطوات، وبالتالي لا تنخفض الفجوة التجميعية. ويشير هذا النتيجة المفاجئة إلى أن النماذج الأقوى، رغم قدرتها على حفظ وتذكّر معرفة واقعية أكثر، إلا أنها لا تُظهر تحسنًا مماثلًا في قدرتها على أداء هذا النوع من الاستدلال التجميعي.ثم نُظهر كيف أن التحفيز المُستَحث (مثل التفكير المتسلسل) يُقلل من الفجوة التجميعية من خلال التفكير بشكل صريح. ونقدّم طريقة جديدة تُسمى "الاستفسار الذاتي" (self-ask)، والتي تُحسّن بشكل أكبر من التفكير المتسلسل. في طريقةنا، يُسأَل النموذج نفسه (ويعطي إجابة) أسئلة متابعة صريحة قبل الإجابة على السؤال الأصلي. وأخيرًا، نُظهر أن التحفيز المنظم في طريقة الاستفسار الذاتي يمكّننا من دمج محرك بحث بسهولة لحل الأسئلة المتابعة، مما يُحسّن دقة الإجابة بشكل إضافي.