Command Palette
Search for a command to run...
ساحة الاستدلال العالمي
ساحة الاستدلال العالمي
الملخص
تُعد النماذج العالمية (World Models أو WMs) مُحاكيات داخلية للعالم الحقيقي تهدف إلى تمكين الوكلاء (Agents) من فهم البيئات المعقدة، وتوقع تطوراتها، والتصرف بناءً عليها. ومع ذلك، فإن مقاييس التقييم (Benchmarks) الحالية للنماذج العالمية تركز بشكل ضيق على التنبؤ بالحالة التالية (next-state prediction) والدقة البصرية، متجاهلةً قدرات المحاكاة الأعمق الضرورية للسلوك الذكي. لمعالجة هذه الفجوة، نقدم "WR-Arena"، وهو مقياس تقييم شامل للنماذج العالمية يقيسها عبر ثلاثة أبعاد أساسية لمحاكاة العالم التالي: (i) دقة محاكاة الإجراءات (Action Simulation Fidelity)، وهي القدرة على تفسير التعليمات ذات الدلالات المعنوية متعددة الخطوات واتباعها، مع توليد سيناريوهات افتراضية بديلة (counterfactual rollouts) متنوعة؛ (ii) التنبؤ طويل المدى (Long-horizon Forecast)، وهي القدرة على الحفاظ على محاكاة دقيقة ومتماسكة ومقبولة فيزيائيًا عبر تفاعلات ممتدة؛ و (iii) الاستدلال والتخطيط عبر المحاكاة (Simulative Reasoning and Planning)، وهي القدرة على دعم الاستدلال الموجه نحو الأهداف من خلال محاكاة المستقبلات البديلة ومقارنتها واختيار الأفضل منها في بيئات مهيكلة وبيئات مفتوحة النهاية. قمنا ببناء تصنيف للمهام (task taxonomy) وأعدنا تجميع مجموعات بيانات متنوعة صُممت لاستكشاف هذه القدرات، متجاوزين بذلك التقييمات أحادية الدور (single-turn) والتقييمات القائمة على الإدراك الحسي فقط. ومن خلال تجارب موسعة أجريتها على نماذج عالمية حديثة (state-of-the-art WMs)، تكشف نتائجنا عن فجوة جوهرية بين النماذج الحالية والاستدلال الافتراضي على مستوى الإنسان، كما تُرسّخ "WR-Arena" كأداة تشخيصية ودليل توجيهي لتطوير أجيال قادمة من النماذج العالمية القادرة على الفهم الرصين، والتنبؤ الدقيق، والتصرف الهادف.