منذ 2 أشهر

أوركا 2: تعليم النماذج اللغوية الصغيرة كيفية الاستدلال

Arindam Mitra; Luciano Del Corro; Shweti Mahajan; Andres Codas; Clarisse Simoes; Sahaj Agarwal; Xuxi Chen; Anastasia Razdaibiedina; Erik Jones; Kriti Aggarwal; Hamid Palangi; Guoqing Zheng; Corby Rosset; Hamed Khanpour; Ahmed Awadallah

عرض تفاصيل الورقة البحثية

أوركا 2: تعليم النماذج اللغوية الصغيرة كيفية الاستدلال

الملخص

يتعلم نموذج Orca 1 من إشارات غنية، مثل مسارات التفسير، مما يسمح له بتفوق النماذج التقليدية المدربة على التعليمات في مقاييس مثل BigBench Hard و AGIEval. في نموذج Orca 2، نواصل استكشاف كيفية تحسين قدرات الاستدلال للنماذج الأصغر من خلال استخدام إشارات تدريبية محسنة. غالباً ما اعتمدت أبحاث تدريب النماذج الصغيرة على التعلم بالتقليد لنسخ مخرجات النماذج الأكثر قدرة. نعتقد أن التركيز المفرط على التقليد قد يحد من إمكانات النماذج الأصغر. نسعى إلى تعليم النماذج الصغيرة استخدام استراتيجيات حل مختلفة لكل مهمة، وقد تكون هذه الاستراتيجيات مختلفة عن تلك المستخدمة من قبل النموذج الأكبر. على سبيل المثال، بينما قد توفر النماذج الأكبر إجابة مباشرة لمهمة معقدة، قد لا يكون للنماذج الأصغر نفس القدرة. في Orca 2، نعلّم النموذج تقنيات استدلال متعددة (خطوة بخطوة، استدعاء ثم توليد، استدعاء-استدلال-توليد، إجابة مباشرة، وغيرها). بشكل أكثر أهمية، نهدف إلى مساعدة النموذج على تعلم تحديد استراتيجية الحل الأكثر فعالية لكل مهمة. نقيم Orca 2 باستخدام مجموعة شاملة تتكون من 15 مقاييس متنوعة (تتوافق مع حوالي 100 مهمة وأكثر من 36,000 دعوة فريدة). يتفوق Orca 2 بشكل كبير على النماذج ذات الحجم المماثل ويحقق مستويات أداء مشابهة أو أفضل من تلك التي حققتها النماذج أكبر بـ 5-10 أضعاف عند تقييمه في مهام معقدة تستعرض قدرات الاستدلال المتقدمة في بيئات صفرية. سنجعل أوزان Orca 2 متاحة للجمهور عبر الرابط aka.ms/orca-lm لدعم البحث حول تطوير وتقييم وتوافق النماذج الأصغر.