HyperAIHyperAI
منذ 17 أيام

توليد بيانات لتقليل الارتباطات الوهمية في مجموعات بيانات الاستدلال اللغوي الطبيعي

Yuxiang Wu, Matt Gardner, Pontus Stenetorp, Pradeep Dasigi
توليد بيانات لتقليل الارتباطات الوهمية في مجموعات بيانات الاستدلال اللغوي الطبيعي
الملخص

غالبًا ما تستغل نماذج معالجة اللغة الطبيعية الارتباطات الزائفة بين السمات المستقلة عن المهمة والعلامات في المجموعات البيانات لتحقيق أداء جيد فقط ضمن التوزيعات التي تم تدريبها عليها، دون التعميم إلى توزيعات مهام مختلفة. نقترح معالجة هذه المشكلة من خلال إنشاء نسخة مُعدّلة (بدون تحيز) من مجموعة البيانات، والتي يمكن استخدامها لتدريب نموذج مُعدّل (بدون تحيز) جاهز للاستخدام، وذلك عن طريق استبدال بيانات التدريب فقط. يتكون نهجنا من 1) طريقة لتدريب منشئات بيانات لتوليد عينات بيانات عالية الجودة متسقة مع العلامات؛ و2) آلية تصفية لحذف النقاط التي تسهم في الارتباطات الزائفة، حيث تُقاس هذه الارتباطات باستخدام إحصائيات z. تم إنشاء نسخ مُعدّلة من مجموعتي البيانات SNLI وMNLI، وتم تقييم الأداء على مجموعة واسعة من مجموعات الاختبار المُعدّلة، والخارجية عن التوزيع، والمضادة. أظهرت النتائج أن النماذج المدربة على مجموعات البيانات المُعدّلة لدينا تُظهر تعميمًا أفضل مقارنةً بالنموذج المدرب على المجموعات الأصلية في جميع السياقات. وفي معظم المجموعات، تتفوّق طريقة لدينا أو تُنافس استراتيجيات التقليل من التحيز المتطورة السابقة، وبمجرد دمجها مع تقنية متعامدة تُعرف بـ "حاصل الضرب للخبراء" (product-of-experts)، تتحسن النتائج أكثر وتتفوّق على أفضل النتائج السابقة الخاصة بـ SNLI-hard وMNLI-hard.