HyperAIHyperAI

Command Palette

Search for a command to run...

توليد بيانات لتقليل الارتباطات الوهمية في مجموعات بيانات الاستدلال اللغوي الطبيعي

Yuxiang Wu Matt Gardner Pontus Stenetorp Pradeep Dasigi

الملخص

غالبًا ما تستغل نماذج معالجة اللغة الطبيعية الارتباطات الزائفة بين السمات المستقلة عن المهمة والعلامات في المجموعات البيانات لتحقيق أداء جيد فقط ضمن التوزيعات التي تم تدريبها عليها، دون التعميم إلى توزيعات مهام مختلفة. نقترح معالجة هذه المشكلة من خلال إنشاء نسخة مُعدّلة (بدون تحيز) من مجموعة البيانات، والتي يمكن استخدامها لتدريب نموذج مُعدّل (بدون تحيز) جاهز للاستخدام، وذلك عن طريق استبدال بيانات التدريب فقط. يتكون نهجنا من 1) طريقة لتدريب منشئات بيانات لتوليد عينات بيانات عالية الجودة متسقة مع العلامات؛ و2) آلية تصفية لحذف النقاط التي تسهم في الارتباطات الزائفة، حيث تُقاس هذه الارتباطات باستخدام إحصائيات z. تم إنشاء نسخ مُعدّلة من مجموعتي البيانات SNLI وMNLI، وتم تقييم الأداء على مجموعة واسعة من مجموعات الاختبار المُعدّلة، والخارجية عن التوزيع، والمضادة. أظهرت النتائج أن النماذج المدربة على مجموعات البيانات المُعدّلة لدينا تُظهر تعميمًا أفضل مقارنةً بالنموذج المدرب على المجموعات الأصلية في جميع السياقات. وفي معظم المجموعات، تتفوّق طريقة لدينا أو تُنافس استراتيجيات التقليل من التحيز المتطورة السابقة، وبمجرد دمجها مع تقنية متعامدة تُعرف بـ "حاصل الضرب للخبراء" (product-of-experts)، تتحسن النتائج أكثر وتتفوّق على أفضل النتائج السابقة الخاصة بـ SNLI-hard وMNLI-hard.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp