HyperAIHyperAI

Command Palette

Search for a command to run...

منذ يوم واحد
إيجرنت
المعايير

ساحة الاستدلال العالمي

الملخص

تُعد النماذج العالمية (World Models أو WMs) مُحاكيات داخلية للعالم الحقيقي تهدف إلى تمكين الوكلاء (Agents) من فهم البيئات المعقدة، وتوقع تطوراتها، والتصرف بناءً عليها. ومع ذلك، فإن مقاييس التقييم (Benchmarks) الحالية للنماذج العالمية تركز بشكل ضيق على التنبؤ بالحالة التالية (next-state prediction) والدقة البصرية، متجاهلةً قدرات المحاكاة الأعمق الضرورية للسلوك الذكي. لمعالجة هذه الفجوة، نقدم "WR-Arena"، وهو مقياس تقييم شامل للنماذج العالمية يقيسها عبر ثلاثة أبعاد أساسية لمحاكاة العالم التالي: (i) دقة محاكاة الإجراءات (Action Simulation Fidelity)، وهي القدرة على تفسير التعليمات ذات الدلالات المعنوية متعددة الخطوات واتباعها، مع توليد سيناريوهات افتراضية بديلة (counterfactual rollouts) متنوعة؛ (ii) التنبؤ طويل المدى (Long-horizon Forecast)، وهي القدرة على الحفاظ على محاكاة دقيقة ومتماسكة ومقبولة فيزيائيًا عبر تفاعلات ممتدة؛ و (iii) الاستدلال والتخطيط عبر المحاكاة (Simulative Reasoning and Planning)، وهي القدرة على دعم الاستدلال الموجه نحو الأهداف من خلال محاكاة المستقبلات البديلة ومقارنتها واختيار الأفضل منها في بيئات مهيكلة وبيئات مفتوحة النهاية. قمنا ببناء تصنيف للمهام (task taxonomy) وأعدنا تجميع مجموعات بيانات متنوعة صُممت لاستكشاف هذه القدرات، متجاوزين بذلك التقييمات أحادية الدور (single-turn) والتقييمات القائمة على الإدراك الحسي فقط. ومن خلال تجارب موسعة أجريتها على نماذج عالمية حديثة (state-of-the-art WMs)، تكشف نتائجنا عن فجوة جوهرية بين النماذج الحالية والاستدلال الافتراضي على مستوى الإنسان، كما تُرسّخ "WR-Arena" كأداة تشخيصية ودليل توجيهي لتطوير أجيال قادمة من النماذج العالمية القادرة على الفهم الرصين، والتنبؤ الدقيق، والتصرف الهادف.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp