HyperAIHyperAI

Command Palette

Search for a command to run...

ما وراء الواقع المرئي: نظام التقييم الجديد في تسينغهوا وورلد أرينا يكشف عن فجوة القدرات في نماذج العالم المجسد

Featured Image

عندما تستطيع تقنيات الذكاء الاصطناعي التوليدي إنشاء مقاطع فيديو واقعية بشكل لا يصدق، ألا نكون بعيدين عن الذكاء المتجسد الحقيقي؟ قد لا تكون الإجابة متفائلة إلى هذا الحد.

شهدت نماذج توليد الفيديو تقدماً مذهلاً خلال السنوات القليلة الماضية. فمن تفاصيل الإضاءة والظلال إلى المشاهد الديناميكية المعقدة، باتت العديد من النماذج قادرة على توليد صور يصعب تمييزها عن الواقع بالعين المجردة. مع ذلك، عند دمج هذه النماذج في أنظمة الروبوتات واستخدامها في اتخاذ القرارات والتنفيذ في العالم المادي، تظهر حقيقة محرجة: لم تُترجم الواقعية البصرية إلى موثوقية وظيفية.

تعتمد أنظمة التقييم الحالية لنماذج العالم المجسد بشكل كبير على مقارنة أحادية البعد لـ "الواقعية البصرية" - حيث يُعتبر النموذج الذي يُنتج الفيديو الأكثر وضوحًا وسلاسة هو النموذج الأفضل. ومع ذلك، يتم تجاهل سؤال جوهري: هل تستطيع هذه النماذج، القادرة على إنتاج فيديوهات جميلة، أن تدعم حقًا اتخاذ قرارات مستقرة وتصرفات فعّالة في العالم المادي الحقيقي؟

هذا هو السؤال الأساسي الذي يحاول نظام التقييم الجديد WorldArena الإجابة عليه وحله.WorldArena، الذي اقترحته مؤسسات من بينها جامعة تسينغهوا، وجامعة بكين، وجامعة هونغ كونغ، وجامعة برينستون، والأكاديمية الصينية للعلوم، وجامعة شنغهاي جياو تونغ، وجامعة العلوم والتكنولوجيا الصينية، والجامعة الوطنية في سنغافورة.بدلاً من حصر التقييم في المظهر المرئي، فقد دمجت لأول مرة جودة إنشاء الفيديو مع وظائف المهام المجسدة، وقامت ببناء إطار تقييم كامل من "يبدو حقيقيًا" إلى "قابل للاستخدام بالفعل".

عنوان الورقة: WorldArena: معيار موحد لتقييم الإدراك والفائدة الوظيفية لنماذج العالم المجسدة
عنوان الورقة:

http://arxiv.org/abs/2602.08971
الصفحة الرئيسية للمشروع:

http://world-arena.ai
تصنيف التقييم:

https://huggingface.co/spaces/WorldArena/WorldArena

مستودع الشفرة:

https://github.com/tsinghua-fib-lab/WorldArena

إعادة تعريف ما يشكل فيديو "جيد" تم إنشاؤه من ستة أبعاد.

من أجل التقييم المنهجي لجودة مقاطع الفيديو المُنتجة،يتمحور تصميم WorldArena حول 6 أبعاد أساسية.إنهم لا يركزون فقط على الجماليات البصرية، بل يتعمقون أيضاً في القوانين الفيزيائية والذكاء المكاني.

يقوم موقع WorldArena بتقييم جودة توليد النماذج العالمية بشكل شامل عبر ستة أبعاد رئيسية.

جودة الصورة

تُعدّ الجودة البصرية أبسط معايير التقييم الإدراكي. فهي تقيس مدى واقعية الفيديو وتشابه توزيعه الإحصائي على مستوى البكسل من خلال مؤشرات مثل وضوح الصورة، والتقييم الجمالي، وتشابه تمثيل JEPA.يجيب هذا البعد بشكل أساسي على سؤال واحد: هل النتيجة المُولَّدة تُقارب بصريًا توزيع البيانات الفعلي؟

جودة الأداء

يركز بُعد جودة الحركة على العقلانية الزمنية، من خلال استمرارية التدفق البصري، وتحليل شدة الحركة، وسلاسة الحركة.قم بتقييم ما إذا كانت حركة الأجسام في الفيديو متماسكة ومستقرة وتتوافق مع القوانين الطبيعية.حتى لو كان النموذج قادراً على توليد إطارات واضحة، فإن مصداقيته الفيزيائية لا تزال غير كافية إذا كانت هناك قفزات أو انقطاعات في مسار الحركة.

اتساق المحتوى

في العالم الحقيقي، لا تختفي الأشياء ولا تتغير. يتتبع بُعد اتساق المحتوى استقرار الموضوع والخلفية في الزمان والمكان للكشف عن مشاكل مثل الانحراف الهيكلي، أو التباس هوية الموضوع، أو عدم اتساق الخلفية.يؤكد هذا البعد على القدرة على الحفاظ على "الاتساق المتسق"، وهو شرط أساسي لدعم المهام طويلة الأجل.

الامتثال البدني

يُعدّ التوافق المادي جسراً أساسياً يربط بين الرؤية والوظيفة. تُقيّم WorldArena تحديداً مدى منطقية التفاعل بين الذراع الروبوتية والأجسام في الفيديو، وما إذا كان مسار الحركة يتوافق مع الديناميكيات الأساسية. بعبارة أخرى، يجب ألا يقتصر الأمر على أن "يبدو" النموذج مطابقاً للواقع، بل يجب أن "يتحرك" أيضاً بشكل صحيح. يرتبط هذا البُعد ارتباطاً مباشراً بإمكانية استخدام النموذج للتحكم والتخطيط العمليين.

دقة ثلاثية الأبعاد

يعتمد الذكاء المجسد على فهم البنى المكانية ثلاثية الأبعاد. يقيس بُعد الدقة ثلاثية الأبعاد ما إذا كان النموذج يجسد بدقة العلاقات الهندسية المكانية للمشهد من خلال خطأ تقدير العمق وتناسق المنظور. فإذا كانت العلاقات المكانية مشوهة، حتى لو كانت الصورة ثنائية الأبعاد واقعية، فلن يتمكن الروبوت من الاعتماد على هذا التوقع لأداء عمليات دقيقة.

إمكانية التحكم

وأخيراً، هناك إمكانية التحكم، وهي قدرة أساسية لكي تصبح النماذج التوليدية عملية.يفحص هذا البعد ما إذا كان النموذج "يفهم" التعليمات حقًا، وما إذا كان بإمكانه الاستجابة بدقة لمدخلات المستخدم على المستوى الدلالي، وما إذا كان بإمكانه توليد نتائج تمييزية في ظل ظروف مختلفة.لا ترتبط إمكانية التحكم بجودة البيانات المُولَّدة فحسب، بل ترتبط أيضًا بالقدرة على التكيف مع المهمة.

تشكل هذه الأبعاد الستة مجتمعةً ملف تعريف WorldArena الشامل لجودة الفيديو المُولّد. لم تعد هذه الأبعاد مؤشرات منفصلة، بل أصبحت تدعم بعضها بعضاً، وتشير جميعها إلى هدف واحد: يجب أن يتمتع المحتوى المُولّد بدرجة عالية من الواقعية من حيث الإدراك، والزمن، والفيزياء، والمكان، والدلالات.

الاختبار الحقيقي: هل يمكن لنموذج العالم أن يصبح منفذاً للمهمة؟

إذا كان تقييم جودة الفيديو بمثابة "فحص جسدي"، فإن تقييم وظائف المهمة المجسدة هو "تمرين واقعي". يتمثل إنجاز رئيسي آخر لشركة WorldArena في وضعها الرائد لنماذج العالم ضمن سيناريوهات تنفيذ المهام الواقعية.انطلاقاً من ثلاثة أدوار رئيسية، نقوم بدراسة قيمتها العملية الحقيقية.

وهو يتضمن نظام تقييم المهام اللاحقة (محرك توليف البيانات، ومقيّم الاستراتيجية، ومخطط الإجراءات).

أولاً، يعمل كمحرك لتوليد البيانات.

  هل تستطيع نماذج العالم توليد بيانات مسارات اصطناعية عالية الجودة لتدريب نماذج السياسات اللاحقة (مثل VLA)؟ تُظهر النتائج التجريبية أن بعض النماذج قادرة بالفعل على تحقيق تحسينات في الأداء، ولكن بشكل عام، لا تزال جودة البيانات الاصطناعية متأخرة بشكل ملحوظ عن البيانات الحقيقية، ولا تستطيع معظم النماذج حتى الآن توفير مكاسب مستقرة وموثوقة لتعلم السياسات. هذا يعني أن إنشاء بيانات تدريب "من العدم" باستخدام نماذج العالم لا يزال يُمثل تحديًا.

مقارنة أداء نماذج VLA المدربة باستخدام نموذج العالم كمحرك لتوليف البيانات.

ثانياً، يعمل كمقيّم للاستراتيجية. 

هل تستطيع نماذج العالم محاكاة ديناميكيات بيئات العالم الحقيقي بدقة، وبالتالي استبدال البيئة الحقيقية في تقييم أداء نماذج الاستراتيجيات المختلفة؟ قام الباحثون بتدريب سلسلة من نماذج VLA ذات قدرات متفاوتة، واختبروها في بيئات محاكاة العالم الحقيقي وبيئات نماذج العالم، وقارنوا الارتباط بين مجموعتي النتائج. أظهرت النتائج اختلافات كبيرة: حققت بعض النماذج (مثل CtrlWorld) ارتباطًا يصل إلى 0.986 مع البيئة الحقيقية، ما يجعلها شبه مطابقة للواقع؛ بينما كان أداء نماذج أخرى متوسطًا فقط، ما يعكس ضعفها في التقييم البصري.

ترابط نتائج تقييم الاستراتيجية بناءً على نموذج العالم وبيئة المحاكاة الفيزيائية

ثالثًا، إنه بمثابة مخطط عمل.

تدمج هذه المهمة نموذجًا عالميًا في نظام تحكم مغلق الحلقة، مما يسمح له بالمشاركة المباشرة في تنفيذ المهمة من البداية إلى النهاية. وكشفت التجارب أنه على الرغم من قدرة بعض النماذج على توليد تنبؤات مستقبلية معقولة بصريًا، إلا أن أداءها في دعم مهام التحكم المغلقة الحلقة طويلة الأجل ومتعددة الخطوات لا يزال متأخرًا بشكل ملحوظ عن نماذج السياسات المتخصصة الناضجة (مثل Pi 0.5). قد يكون أداؤها جيدًا في التنبؤات قصيرة الأجل، لكنها عرضة للخطأ في اتخاذ القرارات المعقدة طويلة الأجل.

مقارنة أداء المهام لتخطيط العمل بناءً على نموذج العالم

الواقعية البصرية ليست هي نفسها الواقعية الوظيفية: فجوة يجب مواجهتها.

من خلال تقييم منهجي لـ 14 نموذجًا عالميًا سائدًا حاليًا، يكشف موقع WorldArena عن حقيقة قاسية:هناك فجوة كبيرة بين قدرات توليد الصور وقدرات تنفيذ المهام.


تستطيع العديد من النماذج توليد مقاطع فيديو واقعية للغاية، لكنها تكشف عن أوجه قصور جوهرية في التفاعلات الفيزيائية المعقدة، والاتساق على المدى الطويل، ودعم السياسات المستقر. لذلك،قدمت WorldArena مقياسًا موحدًا وشاملًا للتقييم، وهو EWMScore، الذي يدمج نتائج تقييم الفيديو متعددة الأبعاد في درجة واحدة يمكن مقارنتها عبر جماهير مختلفة.والأهم من ذلك، أن EWMScore يرتبط ارتباطًا إيجابيًا كبيرًا بالتقييم البشري الذاتي لجودة الفيديو، مما يدل على فعاليته على المستوى الإدراكي.

مقارنة نتائج نظام إدارة علاقات العملاء الإلكتروني (EWMS) والمؤشرات البُعدية المختلفة لـ 14 نموذجًا عالميًا

مع ذلك، عندما أجرى الباحثون تحليلًا للارتباط بين مؤشر EWMScore وأداء المهام الجسدية، ظهرت حقيقة أكثر إثارة للقلق: بلغ ارتباطه بمهام محرك البيانات 0.600، بينما كان ارتباطه بمهام تخطيط الحركة أقل بكثير عند 0.360. تُظهر هذه البيانات بوضوح أنه حتى لو كان النموذج مقبولًا بصريًا للبشر، فهذا لا يعني بالضرورة أنه قادر على دعم المهام الجسدية في العالم الحقيقي بفعالية. تُعدّ الفجوة بين "الجمالي" و"سهولة الاستخدام" عقبةً يجب على التكنولوجيا الحالية تجاوزها.

تحليل الارتباط بين درجة EWMScore والتقييم البشري وأداء المهام اللاحقة المجسدة

لا تكمن أهمية WorldArena في توفير مجموعة جديدة من المقاييس فحسب، بل في تغيير تركيز الباحثين أيضاً. فهي تحوّل التركيز من مسابقات توليد الصور إلى التحقق من القدرة الوظيفية؛ ومن الواقعية الإدراكية إلى الفهم الفيزيائي واستقرار القرار على المدى الطويل.


عندما لا تقتصر المنافسة بين النماذج العالمية على "من يشبه الفيلم أكثر"، بل على "من يفهم الفيزياء بشكل أفضل، ومن هو أكثر قوة، ومن يمكنه دعم عملية صنع القرار في العالم الحقيقي بشكل أفضل"، فإن تطوير الذكاء المجسد سيدخل مرحلة جديدة حقًا.


تُحدد أنظمة التقييم مسار التطور التكنولوجي. وما اقترحته وورلد أرينا هو مسار ضروري نحو الذكاء المتجسد العملي.