
الملخص
نُقدّم رأينا بأن التقدّم في الذكاء متعدد الوسائط الحقيقي يتطلب تحولًا من الأنظمة التفاعلية المُوجهة بالمهام، والاعتماد المفرط على السياق الطويل، نحو نموذج أوسع يُعرف بـ"الاستشعار الفائق". نُصوّر الاستشعار الفائق المكاني على أنه مراحل أربع تتجاوز الفهم اللغوي فقط: التوصيف الدلالي (تحديد ما يُرى)، والفهم التسلسلي للأحداث (الحفاظ على الذاكرة عبر التجارب المستمرة)، والفهم المكاني الضمني ثلاثي الأبعاد (استخلاص الصورة الخلفية للعالم من وراء البكسلات)، ونمذجة العالم التنبؤية (بناء نماذج داخلية تُصنّف وتنظم المعلومات). تختبر المعايير الحالية حاليًا فقط المراحل المبكرة، مما يوفر تغطية ضيقة للفهم المكاني، ولا تُحدّد نماذج الذكاء في أشكال تتطلب فعلاً نمذجة العالم. ولتحفيز التقدّم في الاستشعار الفائق المكاني، نقدّم VSI-SUPER، وهو معيار مكوّن من جزأين: VSR (الاسترجاع المكاني البصري على مدى طويل) وVSC (العد المستمر للمكاني البصري). تتطلب هذه المهام إدخالات فيديو بأطوال غير محدودة، ولكنها مقاومة لتوسيع السياق بالطرق القصوى. ثم نختبر حدود التوسع في البيانات من خلال تجميع مجموعة VSI-590K وتدريب نموذج Cambrian-S، ما أسفر عن تحسين مطلق بنسبة +30% على VSI-Bench دون التضحية بالقدرات العامة. ومع ذلك، تظل الأداء على VSI-SUPER محدودًا، ما يدل على أن الحجم وحده غير كافٍ لتحقيق الاستشعار الفائق المكاني. ونُقترح أن يكون "الاستشعار التنبؤي" مسارًا واعدًا، ونقدّم نموذجًا تجريبيًا يعتمد على مُحدّد للإطار التالي ذاتي التدريب، يستخدم مفهوم "الدهشة" (أي خطأ التنبؤ) لدفع تكوين الذاكرة وتقسيم الأحداث. وعند تطبيقه على VSI-SUPER، أظهر هذا النهج تفوقًا كبيرًا على أبرز النماذج المُخزّنة مُحليًا، ما يُظهر أن الاستشعار الفائق المكاني يتطلب نماذج لا ترى فقط، بل تتنبأ أيضًا، وتحدد، وتصنّف التجارب.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.