HyperAIHyperAI

Command Palette

Search for a command to run...

TruthfulQA: قياس مدى تقليد النماذج للأكاذيب البشرية

Sebastian Raschka

الملخص

نقترح معيارًا لقياس مدى صدقية نموذج اللغة في إنتاج إجابات على الأسئلة. يتكون هذا المعيار من 817 سؤالًا تغطي 38 فئة، بما في ذلك الصحة والقانون والماليات والسياسة. قدمنا أسئلة يمكن أن يجيب عليها بعض البشر بشكل خاطئ بسبب اعتقاد أو مفهوم خاطئ. لتحقيق أداء جيد، يجب على النماذج تجنب إنتاج إجابات خاطئة تم تعلمها من تقليد النصوص البشرية. قمنا باختبار نماذج GPT-3 و GPT-Neo/J و GPT-2 ونموذج مبني على T5. كان أفضل النماذج صادقًا في 58% من الأسئلة، بينما بلغ أداء البشر 94%. أنتجت النماذج العديد من الإجابات الخاطئة التي تقلد المفاهيم الخاطئة الشائعة ولديها القدرة على خداع البشر. كانت أكبر النماذج عمومًا أقل صدقية. هذا يتعارض مع مهام المعالجة اللغوية الطبيعية الأخرى، حيث يتحسن الأداء مع زيادة حجم النموذج. ومع ذلك، إذا كانت الإجابات الخاطئة قد تعلمت من التوزيع التدريبي، فإن هذا النتيجة متوقعة. نقترح أن زيادة حجم النماذج بمفردها أقل وعاءً لتحسين الصدقية مقارنة بتعديلها باستخدام أهداف تدريبية غير تقليد النصوص من الإنترنت.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
TruthfulQA: قياس مدى تقليد النماذج للأكاذيب البشرية | مستندات | HyperAI