اسألني أي شيء: استراتيجية بسيطة للتحفيز النماذج اللغوية

النماذج اللغوية الكبيرة (LLMs) تُظهر قدرة عالية على التحويل إلى مهام جديدة بشكل مباشر، فقط من خلال تقديم مُدخل طبيعي (prompt) بلغة طبيعية يوضح كيفية أداء المهمة، دون الحاجة إلى تدريب إضافي. ومع ذلك، فإن عملية التحفيز (prompting) تُعدّ عملية هشة، حيث يمكن أن تؤدي تغييرات بسيطة في المُدخل إلى تغيرات كبيرة في توقعات النموذج، مما يستدعي جهودًا كبيرة لتصميم مُدخل "مثالي" بدقة لكل مهمة. لتقليص هذا الجهد الكبير المطلوب في تصميم المدخلات، نطرح سؤالًا بديلًا: هل يمكن أن يؤدي إنتاج عدة مدخلات فعالة، وإن كانت غير مثالية، ثم تجميعها إلى استراتيجية تحفيزية عالية الجودة؟ تُحفّز ملاحظاتنا على اقتراح طريقة تحفيز جديدة تُسمى "اسألني أي شيء" (ASK ME ANYTHING - AMA). نبدأ أولاً بفهم التنسيقات الفعالة للمدخلات، ونكتشف أن مدخلات الأسئلة والأجوبة (QA)، التي تشجع على توليد مفتوح (مثل: "من ذهب إلى الحديقة؟")، تتفوق غالبًا على تلك التي تقيّد إخراج النموذج (مثل: "جون ذهب إلى الحديقة. أجب بـ"صحيح" أو "خاطئ"). تعتمد طريقتنا على استخدام النموذج اللغوي الكبير نفسه بشكل تكراري لتحويل مدخلات المهمة إلى التنسيق الفعّال لأسئلة وأجوبة. ثم نطبق المدخلات المجمعة للحصول على عدة أصوات مشوّشة (noisy votes) للقيمة الحقيقية للمدخل. ونلاحظ أن هذه المدخلات قد تختلف بشكل كبير في الدقة، وتمتلك تعتمدات معقدة، لذا نقترح استخدام "الإشراف الضعيف" (weak supervision)، وهي طريقة لدمج التوقعات المشوّشة، لإنتاج التوقعات النهائية للمدخلات. قمنا بتقييم AMA عبر عائلات نماذج مفتوحة المصدر (مثل: EleutherAI، BLOOM، OPT، وT0) وبأحجام مختلفة من النماذج (من 125 مليون إلى 175 مليار معامل). وتبين أن AMA تحقق متوسط رفع في الأداء بنسبة 10.2% مقارنةً بالأساسيات القليلة (few-shot baseline). تُمكّن هذه الاستراتيجية البسيطة النموذج المفتوح المصدر GPT-J-6B من تحقيق أداء يوازي أو يفوق أداء GPT3-175B القائم على التحفيز القليل (few-shot) في 15 من أصل 20 معيارًا شهيرًا. وبمتوسط الأداء عبر هذه المهام، يتفوق نموذج GPT-J-6B على GPT3-175B القائم على التحفيز القليل. نُعلن عن إتاحة الشفرة المصدرية لدينا هنا: https://github.com/HazyResearch/ama_prompting