هل يمكن للمحاكيات العالمية التفكير؟ Gen-ViRe: معيار تفكير بصري توليدي
Xinxin Liu Zhaopan Xu Kai Wang Yong Jae Lee Yuzhang Shang

الملخص
بينما يمكّن التحفيز بسلسلة التفكير (CoT) النماذج اللغوية الكبيرة من إجراء استنتاجات رمزية معقدة، إلا أنه ما زال محدودًا بالنصوص المنفصلة ولا يمكنه محاكاة الديناميكيات المستمرة التي تحكم العالم الحقيقي وفق القوانين الفيزيائية. ظهرت نماذج توليد الفيديو الحديثة كمُحاكيات عالمية محتملة من خلال استدلال "سلسلة الإطارات" (CoF) – حيث تُحوَّل الأفكار إلى تسلسلات بصرية خطوة بخطوة، مع تمثيل كل إطار خطوة من خطوات الاستدلال المبنية على قواعد فيزيائية. وعلى الرغم من العروض المقنعة، تظل هناك تحديات قائمة: فالمراجع الحالية، التي تركز على الدقة أو التوافق، لا تقيّم استدلال CoF، وبالتالي لا يمكنها قياس القدرات المعرفية الأساسية في التخطيط متعدد الخطوات، أو المنطق الخوارزمي، أو استخلاص الأنماط المجردة. يُعَد هذا الفراغ التقييمي عائقًا أمام فهم منهجي لقدرات النماذج، ويدفع باتجاه توجيه مُنَظَّم لتحسينها. نقدّم "Gen-ViRe" (مُعيار التفكير البصري التوليدي)، وهي إطار مبني على العلوم المعرفية والتطبيقات الواقعية للذكاء الاصطناعي، يُفكّك استدلال CoF إلى ستة أبعاد معرفية – من المنطق الحسي إلى التخطيط المجرد – و24 مهمة فرعية. وباستخدام جمع بيانات متعدد المصادر، وبروتوكولات تحفيزية محدودة، وتقييم هجين يعتمد على النماذج البصرية واللغوية (VLM) مع معايير تفصيلية، يوفر Gen-ViRe أول تقييم كمي لنماذج الفيديو كمُفكّرين حقيقيين. وقد كشفت تجاربنا على أنظمة الحالة المتطورة (SOTA) عن فجوات كبيرة بين الجودة البصرية المذهلة والعمق الحقيقي للاستدلال، مما يُسهم في إرساء قواعد معيارية وأدوات تشخيصية لدفع تطوير محاكيات عالمية حقيقية.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.