HyperAIHyperAI
منذ 3 أشهر

التحفيز المُصوَّر للتفكير لتحسين التفكير البصري في النماذج الكبيرة متعددة الوسائط للغة

Qiji Zhou, Ruochen Zhou, Zike Hu, Panzhong Lu, Siyang Gao, Yue Zhang
التحفيز المُصوَّر للتفكير لتحسين التفكير البصري في النماذج الكبيرة متعددة الوسائط للغة
الملخص

أحرزت التطورات الحديثة في منهجية السلسلة من التفكير (Chain-of-Thought) والدراسات المرتبطة بها القائمة على التبرير تقدماً ملحوظاً في تحسين أداء النماذج اللغوية الكبيرة (LLMs) في المهام المعقدة للتفكير التمثيلي. ومع تطور النماذج اللغوية الكبيرة متعددة الوسائط (MLLMs)، أصبح تطوير قدرتها على مواجهة المشكلات المعقدة للتفكير متعدد الوسائط أمرًا محوريًا في مجال البحث. ومع ذلك، لم يتم استكشاف إدراج التبريرات متعددة الوسائط في منهجية السلسلة من التفكير بشكل كافٍ حتى الآن. نقترح منهجية التحفيز Image-of-Thought (IoT)، التي تساعد النماذج متعددة الوسائط على استخلاص التبريرات البصرية خطوة بخطوة. وبشكل خاص، يمكن لمنطقية IoT تصميم عمليات استخراج المعلومات البصرية الحاسمة تلقائيًا بناءً على الصور المدخلة والأسئلة المطروحة. وتُحدد كل خطوة من خطوات تحسين الميزات البصرية تبريرات بصرية محددة تدعم الإجابة على الأسئلة المعقدة المتعلقة بالتفكير البصري. علاوة على التبريرات النصية في السلسلة من التفكير، تستخدم منطقية IoT التبريرات البصرية والنصية معًا في آنٍ واحد، مما يساعد النماذج الكبيرة متعددة الوسائط على فهم المعلومات المعقدة متعددة الوسائط. وقد أدى التحفيز IoT إلى تحسين الأداء في المهام البصرية بدون تدريب مسبق (zero-shot) عبر مجموعة متنوعة من مهام فهم الصور في مختلف النماذج متعددة الوسائط. علاوة على ذلك، تُقدم التفسيرات الخطوة بخطوة للسمات البصرية التي يولدها التحفيز IoT توضيحًا لعملية التفكير البصري، مما يُسهم في تحليل العمليات الإدراكية للنماذج الكبيرة متعددة الوسائط.