HyperAIHyperAI

Command Palette

Search for a command to run...

التحفيز المُصوَّر للتفكير لتحسين التفكير البصري في النماذج الكبيرة متعددة الوسائط للغة

Qiji Zhou Ruochen Zhou Zike Hu Panzhong Lu Siyang Gao Yue Zhang

الملخص

أحرزت التطورات الحديثة في منهجية السلسلة من التفكير (Chain-of-Thought) والدراسات المرتبطة بها القائمة على التبرير تقدماً ملحوظاً في تحسين أداء النماذج اللغوية الكبيرة (LLMs) في المهام المعقدة للتفكير التمثيلي. ومع تطور النماذج اللغوية الكبيرة متعددة الوسائط (MLLMs)، أصبح تطوير قدرتها على مواجهة المشكلات المعقدة للتفكير متعدد الوسائط أمرًا محوريًا في مجال البحث. ومع ذلك، لم يتم استكشاف إدراج التبريرات متعددة الوسائط في منهجية السلسلة من التفكير بشكل كافٍ حتى الآن. نقترح منهجية التحفيز Image-of-Thought (IoT)، التي تساعد النماذج متعددة الوسائط على استخلاص التبريرات البصرية خطوة بخطوة. وبشكل خاص، يمكن لمنطقية IoT تصميم عمليات استخراج المعلومات البصرية الحاسمة تلقائيًا بناءً على الصور المدخلة والأسئلة المطروحة. وتُحدد كل خطوة من خطوات تحسين الميزات البصرية تبريرات بصرية محددة تدعم الإجابة على الأسئلة المعقدة المتعلقة بالتفكير البصري. علاوة على التبريرات النصية في السلسلة من التفكير، تستخدم منطقية IoT التبريرات البصرية والنصية معًا في آنٍ واحد، مما يساعد النماذج الكبيرة متعددة الوسائط على فهم المعلومات المعقدة متعددة الوسائط. وقد أدى التحفيز IoT إلى تحسين الأداء في المهام البصرية بدون تدريب مسبق (zero-shot) عبر مجموعة متنوعة من مهام فهم الصور في مختلف النماذج متعددة الوسائط. علاوة على ذلك، تُقدم التفسيرات الخطوة بخطوة للسمات البصرية التي يولدها التحفيز IoT توضيحًا لعملية التفكير البصري، مما يُسهم في تحليل العمليات الإدراكية للنماذج الكبيرة متعددة الوسائط.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp