HyperAI
Back to Headlines

علماء يطورون مجموعة اختبارات جديدة تسمى BRAINTEASERS تتضمن 478 لغزًا ومنطقًا رياضيًا للقياس الذكاء الاصطناعي

منذ 11 أيام

في تطور حديث، تم إنشاء قاعدة بيانات جديدة تُعرف باسم BRAINTEASERS من قبل باحثين في جامعة كارنيجي ميلون الأمريكية بالتعاون مع زملائهم. تحتوي هذه القاعدة على 478 سؤالًا منتقى بعناية من قبل خبراء بشريين، تركز على الألغاز المنطقية والرياضية. استُخدمت هذه القاعدة لاختبار مجموعة متنوعة من النماذج اللغوية الرئيسية، بما في ذلك OpenAI o3، Gemini، وDeepSeek R1. كشفت الدراسة أن النماذج قادرة على توفير حلولٍ إبداعية للأسئلة، لكنها قد تعاني من الانحدار إلى استخدام طرق العثور على الإجابات البسيطة عند مواجهة الأسئلة الصعبة. أظهرت النتائج أيضًا بأن التلميحات الحقيقية كانت فعالة بشكل كبير، خاصةً في الأسئلة ذات المستوى العالي، حيث أدى تقديمها إلى زيادة كبيرة في نسبة الدقة. ومع ذلك، فإن ترجمة الأسئلة التي تتعلق باللغة الطبيعية إلى الصيغ الرياضية جلب تقدمًا محدودًا فقط، مما يشير إلى أن الفهم الحقيقي للسؤال من قبل النموذج لا يزال دون مستوى الأداء المطلوب. عند القيام بمهام تتعلق بإصلاح الأخطاء الذاتية، اتضح أن النماذج تميل إلى الاعتراف بالحلول البشرية الصحيحة كأخطاء بسبب ما يعرف بـ "التأثير المظلم". هذا يعني أنه رغم أن الحل البشري صحيح، فقد يتم تجاهله واعتباره خاطئًا إذا لم يكن واضحاً بما يكفي. هذا التحيز في التعامل مع الإجابات الصحيحة يبرز أهمية تطوير النماذج لكي تكون أكثر قدرة على التمييز بين ما هو صحيح وما هو غير صحيح، بدلاً من الاعتماد فقط على القدرة على إعطاء إجابة سريعة. أثار البحث ردود فعل متباينة من الخبراء في المجال، حيث عبر بعضهم عن تقديره لإنشاء قاعدة البيانات الجديدة، مشيرين إلى أنها ليست مجرد أداة اختبار، بل تعد خطوة مهمة نحو تحسين "التفكير الداخلي" للنماذج اللغوية. قال أحد الخبراء: "إنكم لم تكتبوا مجرد أداة اختبار موثوقة، بل قد أسهمتم في تعميق فهم كيفية تفكير النماذج." أشار الباحثون أيضًا إلى أن مساهمة النماذج في مجالات التعليم والبحث العلمي يمكن أن تكون قيمة، حيث يمكن أن تساعد في تفسير الأفكار بدلاً من مجرد تقديم الإجابات، كما يمكن أن تدعم التفكير الرياضي والمنطقي ومساعدة في بناء نماذج معقدة تتطلب التفكير البنائي. بالنسبة لتدريب النماذج وتقييمها، يمكن استخدام BRAINTEASERS لتحديد ما إذا كانت النماذج تميل إلى الاعتماد على طرق غير متناسقة لتحقيق النتائج أو إذا كانت تمتلك فهماً حقيقيًا للمهام المطلوبة. على صعيد تقييم النماذج، غالبًا ما يتم التركيز على النتيجة النهائية فقط، لكن الباحثين اقترحوا أن طرق تقييم أكثر تفصيلاً يمكن أن تساعد في تحديد ما إذا كانت النماذج "تتفق" على الإجابة الصحيحة لأسباب صحيحة أم لأسباب خاطئة. في إحدى التجارب، طُلب من OpenAI o3 حل مسألة تتعلق بترتيب الأرقام، وقد تم تقديم ثلاث تلميحات، أحدها كان يشير إلى الخطوات الأساسية لحل المسألة. استخدمت النموذج التلميح للبحث مباشرة في فضاء البحث الصغير، ولكنها احتفظت به حتى النهاية. اتضح أن السبب قد يكون الطبيعة الطويلة للتلميح، حيث اعتبرته النموذج "أكثر تعقيدًا"، وبالتالي "تركه لل처리 في النهاية". رغم أن هذه الظاهرة تعتبر خللًا في النموذج، فإنها تعكس أيضًا جانبًا "بشريًا" في تصرفاته. قال أحد الباحثين: "أشعر أن هذه العمل تقدم نظرة جديدة في طريقة دراسة الذكاء الاصطناعي: يجب أن نسأل أنفسنا 'لماذا يتفق' النموذج أو 'ما الذي لا يفهمه حقًا'، وليس فقط 'هل يتفق'. الإبداعية والقدرة على التفسير والشفافية في التفكير هي المفاتيح لتطوير الذكاء الاصطناعي الموثوق والفعال."

Related Links