HyperAIHyperAI

Command Palette

Search for a command to run...

تسرب الكشف: EscapeCraft يفحص قدرات التفكير والاستدلال البشري في نماذج الذكاء الاصطناعي المتعددة الأوضاع مع resultados مدهشة من GPT-4o وغيرها منقح: "EscapeCraft": تقييم مثير لأداء نماذج الذكاء الاصطناعي المتعددة الأوضاع في تحديات "الهروب من الغرفة"

في السنوات الأخيرة، شهدت نماذج التعلم المتعددة الأوضاع (MLLMs) نموًا متسارعًا. هذه النماذج التي تعتمد على الذكاء الصناعي أصبحت قادرة على مجموعة واسعة من المهام، بدءًا من وصف الصور وصولاً إلى فهم الفيديو. ومع ذلك، ظل السؤال المحوري هو: هل تفهم هذه النماذج حقًا ما تراه وتستنتجه؟ وهل يمكنها التعامل مع المهام البصرية المعقدة والمكونة من عدة خطوات بنفس الطريقة التي يتعامل بها البشر؟ لتسليط الضوء على هذه القضايا، قام فريق البحث بقيادة البروفيسور Liu Yang من معهد صناعة الذكاء بجامعة Tsinghua (AIR)، بالتعاون مع قسم الحاسبات بجامعة Tsinghua وجامعة Fudan، بإطلاق مشروع جديد يحمل اسم EscapeCraft. هذا المشروع يتألف من بيئة ثلاثية الأبعاد للهروب من الغرفة (Escape Room)، وهي مصممة لتقييم قدرة النماذج الكبرى المتعددة الأوضاع على إجراء الاستدلال البصري واتخاذ القرارات في بيئات معقدة. بيئة EscapeCraft EscapeCraft هي بيئة تقييم مبتكرة تتيح للنماذج الكبرى أن تتفاعل مع غرفة ثلاثية الأبعاد بحرية. تشمل المهام التي يجب على النماذج القيام بها البحث عن المفاتيح، فتح الصناديق، حل الألغاز، والهروب من الغرفة. كل خطوة تتطلب دمج معلومات بصرية وفضائية ومنطقية متعددة الأوضاع. الهدف النهائي لـ EscapeCraft هو الهروب من الغرفة، مع التركيز على تقييم سلوكيات الاستكشاف والقرارات والاستدلال خلال العملية. تتميز هذه البيئة بالمرونة الشديدة، حيث يمكن تكوينها بشكل مختلف لكل غرفة، مع إمكانية تعديل طول سلسلة الأدوات والصعوبة. كما يمكن توسيع استخدامات البيئة لتشمل مهامًا أخرى مثل الأسئلة والإجابات، الاستدلال المنطقي، وإعادة بناء السرد. تقييم عملية الاستدلال على عكس الطرق التقليدية للتقييم التي تركز فقط على النتائج النهائية (أي ما إذا كانت الإجابة صحيحة أم خاطئة)، يهتم EscapeCraft بتقييم العملية بأكملها. يُراقب النموذج لمعرفة ما إذا كان يستكشف البيئة بشكل مستقل، وما إذا كان يكرر الأخطاء، وكيف يستخدم الأدوات. تتضمن الدراسة مؤشرات مبتكرة لتقييم هذه الجوانب، منها: Intent-Outcome Consistency (IO Consistency): يقيس مدى تطابق نتائج تفاعل النموذج مع البيئة مع نواياه الأصلية، مما يعكس قدرته على "تنفيذ الأمور الصحيحة في الأماكن الصحيحة". Prop Gain / Grab Ratio / GSR: يوضح نمط سلوك النموذج أثناء الاستكشاف والاستدلال، مما يعكس جودة تفاعله، كفاءة استدلاله، ودرجة ذكائه. نتائج التقييم أظهرت نتائج التقييم أن النماذج، حتى النماذج المشهورة مثل GPT-4o، تواجه تحديات كبيرة في مهام الاستدلال البصري. على سبيل المثال، غالبًا ما ترى النماذج الباب ولكنها تدور حول الجدران دون الوصول إليه، أو تلتقط المفتاح ولكنها تنسى كيفية استخدامه. في بعض الحالات، حاولت بعض النماذج التقاط الأريكة بحجة أنها قد تحتوي على "暗格" (مخبأ سري). وفقًا للبيانات، في الصعوبة المستوى 3، نجح GPT-4o في تحقيق 26.5% فقط من الأهداف الفرعية بشكل صحيح ومفهوم، بينما كانت معظم النجاحات الأخرى عرضية. على سبيل المثال، قد تحاول النماذج التقاط التلفزيون وتصدف أنها تلتقط الأداة الأساسية. أنواع الأخطاء تم تقسيم الأخطاء إلى فئتين رئيسيتين: أخطاء الاستدلال: تحدث عندما يفشل النموذج في فهم العلاقة المنطقية بين العناصر في البيئة. أخطاء البصر: تحدث عندما يفشل النموذج في فهم أو تفسير المعلومات البصرية بشكل صحيح. في حالة Claude 3.5، كانت 61.1% من الأخطاء ناجمة عن مشكلات في الاستدلال، بينما كانت 38.9% من الأخطاء مرتبطة بمشكلات بصرية. هذا يشير إلى أنه حتى عندما "يرى" النموذج العنصر، فإنه لا يضرورة "يفهم" كيف يعمل. النماذج المختبرة تم اختبار عدة نماذج رئيسية، بما في ذلك GPT-4o, Gemini-1.5 Pro, Claude 3.5, LLaMA-3.2, Qwen, و Phi-3. أظهرت النتائج أن النماذج تختلف في أدائها حسب مستوى الصعوبة، مما يوفر رؤية ثاقبة حول نقاط القوة والضعف لكل منها. الخلاصة مشروع EscapeCraft يقدم منصة تقييم مبتكرة ومرونة عالية لتقييم قدرة النماذج الكبرى المتعددة الأوضاع على الاستدلال البصري والتفاعل مع بيئات معقدة. النتائج تؤكد أن هناك الكثير مما يمكن تحسينه في مجالات مثل الاستدلال المنطقي وفهم البيئة البصرية، مما يفتح الباب أمام المزيد من البحوث والتطوير في هذا المجال. لمزيد من المعلومات، يمكن الرجوع إلى الصفحة الرئيسية للمشروع على الرابط التالي: EscapeCraft Project Page ومستودع GitHub الخاص به: EscapeCraft GitHub. الدراسة التي أجريت في هذا المشروع تم قبولها في مؤتمر الرؤية الحاسوبية الدولي (ICCV 2025). من بين المؤلفين: Wang Ziyue, Dong Yurui, Luo Fuwen, Ruan Minyuan, Cheng Zhili, Chen Chi, Li Peng, و Liu Yang، حيث كان Wang Ziyue و Dong Yurui هما المؤلفان الرئيسيان المشتركان.

الروابط ذات الصلة