HyperAIHyperAI
منذ 18 أيام

تحسّن التحفيزات التوضيحية من أداء NLI العدواني. هل هذا صحيح؟ {نعم}، هذا صحيح لأنها {تُضعف المؤشرات السطحية}

{Kentaro Inui, Benjamin Heinzerling, Ana Brassard, Pride Kavumba}
تحسّن التحفيزات التوضيحية من أداء NLI العدواني. هل هذا صحيح؟ {نعم}، هذا صحيح لأنها {تُضعف المؤشرات السطحية}
الملخص

تطلب أوامر التفسير من النماذج اللغوية ليس فقط تعيين تصنيف معين لקלט معين، مثل "صحيح" أو "استنتاج" أو "تناقض" في حالة الاستدلال اللغوي الطبيعي، بل أيضًا إنشاء تفسير نصي حر يدعم هذا التصنيف. على سبيل المثال: "هذا تصنيف لأن التفسير". في حين تم تقديم هذا النوع من الأوامر في البداية بهدف تحسين قابلية تفسير النموذج، نُظهر هنا أن أوامر التفسير تُحسّن أيضًا مقاومة النماذج للتشويشات العدائية في معايير الاستدلال اللغوي الطبيعي. مقارنةً بتقنية التحفيز فقط على التصنيف، تُظهر أوامر التفسير أداءً أقوى بشكل متسق في المعايير العدائية، وتتفوق على أحدث النماذج في مجموعات بيانات الاستدلال اللغوي الطبيعي العدائي (Adversarial Natural Language Inference)، والاستدلال اللغوي الطبيعي المُعزز بالحقائق البديلة (Counterfactually-Augmented Natural Language Inference)، وبيانات SNLI-Hard. ونرى أن الزيادة في المقاومة تعود إلى حقيقة أن التحفيز على التفسير يُضعف المؤشرات السطحية. وبشكل خاص، تصبح الرموز الفردية التي تكون عادةً ذات تنبؤ قوي بالإجابة الصحيحة في البيئة التي تُطلب فيها التصنيفات فقط غير مفيدة عندما يُطلب من النموذج أيضًا إنشاء تفسير.