Command Palette
Search for a command to run...
Samarth Goel Reagan J. Lee Kannan Ramchandran

الملخص
مع تحسن أداء النماذج اللغوية الكبيرة (LLMs) في المعايير التقليدية، أصبح هناك حاجة ملحة لوجود أطر تقييم أكثر تحديًا تستكشف جوانب أعمق من الفهم الدلالي. نقدّم SAGE (تقييم التوافق الدلالي والعامّية)، وهو معيار صارم مُصمم لتقييم نماذج التضمين (embedding models) والمقاييس الشبيهة عبر خمس فئات: توافق التفضيل البشري، المقاومة للتغيرات، الحساسية للمعلومات، أداء التجميع، ومقاومة الاسترجاع. على عكس المعايير الحالية التي تركز على كفاءات منفصلة، يقيّم SAGE الفهم الدلالي من خلال ظروف مُضادة، وتحويلات ضوضائية، ومهام تتطلب تقييمًا دقيقًا من قبل البشر، وذلك عبر أكثر من 30 مجموعة بيانات. وقد كشف تقييمنا الشامل لـ 9 نماذج تضمينية ومقاييس كلاسيكية عن فجوات أداء كبيرة، حيث لم تتفوّق أي طريقة واحدة على جميع المحاور. على سبيل المثال، بينما تتفوّق النماذج التضمينية الرائدة مثل text-embedding-3-large من OpenAI في التوافق مع التفضيلات البشرية (0.682 مقابل 0.591 للقيمة الأعلى في المقياس الكلاسيكي)، فإنها تُهزم بشكل ملحوظ من قبل المقاييس الكلاسيكية في مهام الحساسية للمعلومات، حيث حقق معامل جاكارد (Jaccard Similarity) درجة 0.905 مقابل أعلى درجة تضمينية بلغت 0.794. كما كشف SAGE عن تناقضات حاسمة: فنموذج text-embedding-3-small من OpenAI حقق أعلى أداء في التجميع (0.483)، لكنه أظهر تهشّمًا شديدًا مع أدنى درجة مقاومة (0.011). يُظهر SAGE القيود الحرجة في القدرات الحالية للفهم الدلالي، ويوفر تقييمًا أكثر واقعية لقوة النماذج في ظروف الاستخدام الفعلي في العالم الحقيقي.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.