HyperAIHyperAI

Command Palette

Search for a command to run...

CL-bench: معيار لتعلم السياق

الملخص

تمتلك النماذج اللغوية الحالية (LMs) كفاءة عالية في التفكير المنطقي بناءً على المدخلات باستخدام المعرفة المُدرّبة مسبقًا. ومع ذلك، فإن المهام الواقعية تكون أكثر تعقيدًا وتعتمد بشكل كبير على السياق: إذ يجب على النماذج أن تتعلم من السياق المخصص للمهمة، وأن تستفيد من معرفة جديدة تتجاوز ما تم تعلمه أثناء التدريب المسبق، من أجل التفكير وحل المهام. نُطلق على هذه القدرة "التعلم السياقي"، وهي قدرة حيوية يمتلكها البشر بطبيعتهم، لكنها ظلت مهملة إلى حد كبير. ولتحقيق هذا الهدف، نقدّم "CL-bench"، وهو معيار واقعي يتضمن 500 سياق معقد، و1899 مهمة، و31607 معيار تحقق، جميعها صُمّمت بواسطة خبراء متخصصين ذوي خبرة. تم تصميم كل مهمة بحيث يحتوي السياق المقابل عليها على المحتوى الجديد اللازم لحلها. ويتطلب حل المهام في CL-bench من النماذج أن تتعلم من السياق، بدءًا من معرفة متخصصة في مجال معين، ونظم قواعد، وإجراءات معقدة، وصولاً إلى قوانين مستمدة من بيانات تجريبية، جميعها غائبة تمامًا عن مرحلة التدريب المسبق. وهذا يتجاوز بكثير المهام ذات السياق الطويل التي تختبر في الأساس قدرة الاسترجاع أو الفهم القرائي، وكذلك مهام التعلم داخل السياق (in-context learning)، التي تعتمد على تعلّم النماذج لأنماط مهام بسيطة من خلال تعليمات وتمثيلات نموذجية. وقد أظهرت تقييماتنا لعشرة من أحدث النماذج اللغوية أن النماذج تحل فقط 17.2% من المهام في المتوسط. وحتى أفضل نموذج أداءً، وهو GPT-5.1، يحل فقط 23.7% من المهام، مما يُشير إلى أن النماذج اللغوية لم تصل بعد إلى التعلم السياقي الفعّال، وهو ما يُشكّل عائقًا حاسمًا أمام مواجهة المهام الواقعية المعقدة التي تعتمد على السياق. يُعد CL-bench خطوة مهمة نحو بناء نماذج لغوية تمتلك هذه القدرة الأساسية، مما يُعزز من ذكائها ويدفع باتجاه تطبيقها الفعّال في السياقات الواقعية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp