TruthfulQA: قياس مدى تقليد النماذج للأكاذيب البشرية

نقترح معيارًا لقياس مدى صدقية نموذج اللغة في إنتاج إجابات على الأسئلة. يتكون هذا المعيار من 817 سؤالًا تغطي 38 فئة، بما في ذلك الصحة والقانون والماليات والسياسة. قدمنا أسئلة يمكن أن يجيب عليها بعض البشر بشكل خاطئ بسبب اعتقاد أو مفهوم خاطئ. لتحقيق أداء جيد، يجب على النماذج تجنب إنتاج إجابات خاطئة تم تعلمها من تقليد النصوص البشرية. قمنا باختبار نماذج GPT-3 و GPT-Neo/J و GPT-2 ونموذج مبني على T5. كان أفضل النماذج صادقًا في 58% من الأسئلة، بينما بلغ أداء البشر 94%. أنتجت النماذج العديد من الإجابات الخاطئة التي تقلد المفاهيم الخاطئة الشائعة ولديها القدرة على خداع البشر. كانت أكبر النماذج عمومًا أقل صدقية. هذا يتعارض مع مهام المعالجة اللغوية الطبيعية الأخرى، حيث يتحسن الأداء مع زيادة حجم النموذج. ومع ذلك، إذا كانت الإجابات الخاطئة قد تعلمت من التوزيع التدريبي، فإن هذا النتيجة متوقعة. نقترح أن زيادة حجم النماذج بمفردها أقل وعاءً لتحسين الصدقية مقارنة بتعديلها باستخدام أهداف تدريبية غير تقليد النصوص من الإنترنت.