HyperAIHyperAI
منذ 11 أيام

هذا ليس مجموعة بيانات: معيار كبير للنفي لاختبار نماذج اللغة الكبيرة

Iker García-Ferrero, Begoña Altuna, Javier Álvez, Itziar Gonzalez-Dios, German Rigau
هذا ليس مجموعة بيانات: معيار كبير للنفي لاختبار نماذج اللغة الكبيرة
الملخص

على الرغم من أن النماذج اللغوية الكبيرة (LLMs) اكتسبت بشكل ظاهري مستوى معين من المعرفة النحوية وقدرة على التعميم، إلا أنها تفشل في فهم النفي، وهو خطوة جوهرية في معالجة اللغة الطبيعية. نسعى إلى توضيح الأسباب التي تؤدي إلى الأداء غير المثالي للنماذج اللغوية الكبيرة في فهم النفي. نقدم مجموعة بيانات كبيرة مُولَّدة نصف تلقائيًا تتألف من حوالي 400,000 جملة وصفية حول المعرفة الواقعية التي يمكن أن تكون صحيحة أو خاطئة، حيث يظهر النفي في حوالي ثلثي المجموعة بأشكال مختلفة. استخدمنا هذه المجموعة مع أحدث النماذج اللغوية المفتوحة المتاحة باستخدام نهج الصفر (zero-shot) لقياس قدرة النماذج على التعميم والاستدلال، كما قمنا أيضًا بتعديل بعض النماذج تدريبيًا لتقييم ما إذا كان يمكن تدريب فهم النفي. تُظهر نتائجنا أن النماذج اللغوية الكبيرة متميزة في تصنيف الجمل الموجبة، لكنها تواجه صعوبات كبيرة في التعامل مع الجمل السلبية، وتفتقر إلى فهم عميق للنفي، وغالبًا ما تعتمد على مؤشرات سطحية. وعلى الرغم من أن التدريب المخصص للنماذج على الجمل السلبية يُحسّن أداؤها، إلا أن عجزها عن التعميم في التعامل مع النفي يظل موجودًا، مما يبرز التحديات المستمرة التي تواجه النماذج اللغوية الكبيرة فيما يتعلق بفهم النفي والقدرة على التعميم. تم إتاحة مجموعة البيانات والكود للمستخدمين بشكل عام.

هذا ليس مجموعة بيانات: معيار كبير للنفي لاختبار نماذج اللغة الكبيرة | أحدث الأوراق البحثية | HyperAI