التفكير بالصور للمنطق متعدد الوسائط: الأسس، الطرق، والحدود المستقبلية

التقدم الحديث في الاستدلال متعدد الوسائط قد تقدم بشكل كبير بفضل سلسلة الفكر النصية (Chain-of-Thought - CoT)، وهي نموذج حيث تقوم النماذج بالاستدلال داخل اللغة. ومع ذلك، فإن هذا النهج المتمركز حول النص يتعامل مع الرؤية كسياق ثابت وابتدائي، مما يخلق فجوة معنوية أساسية بين البيانات الإدراكية الغنية والفكر الرمزي المنفصل. غالباً ما تتخطى الإدراك البشري اللغة، مستخدماً الرؤية كلوحة رسم ذهنية ديناميكية. والآن، تشهد الذكاء الاصطناعي تطوراً مشابهاً، يمثل تحولاً جوهرياً من نماذج تفكر فقط في الصور إلى نماذج قادرة على التفكير بفضل الصور حقاً. يتميز هذا النموذج الناشئ بنماذج تستفيد من المعلومات المرئية كخطوات وسيطة في عملية التفكير الخاصة بها، مما يحول الرؤية من مدخل سلبي إلى مساحة عمل إدراكية ديناميكية وقابلة للتعديل. في هذه المراجعة، نرسم هذا التطور في الذكاء على مسار نحو استقلالية إدراكية متزايدة، والذي يمر عبر ثلاث مراحل رئيسية: من استكشاف الأدوات الخارجية، عبر التعديل البرمجي، إلى التخيل الداخلي. لتنظيم هذا المجال سريع التطور، تقدم مراجعتنا أربعة إسهامات رئيسية. (1) نحدد المبادئ الأساسية لنموذج التفكير بفضل الصور وإطاره الثلاثي المراحل. (2) نقدم مراجعة شاملة للطرق الأساسية التي تميز كل مرحلة من خارطة الطريق هذه. (3) نحلل المشهد الحرج للمعايير التقييمية والتطبيقات التحويلية. (4) نحدد التحديات الرئيسية ونسوق الاتجاهات المستقبلية الواعدة. من خلال تقديم هذا الإطار المنظم، نهدف إلى توفير خارطة طريق واضحة للأبحاث المستقبلية نحو ذكاء اصطناعي متعدد الوسائط أكثر قوة ومطابقة للإنسان.