HyperAIHyperAI

Command Palette

Search for a command to run...

CoCoT: التحفيز المقارن للسلاسل الفكرية في النماذج المتعددة الوسائط الكبيرة مع مدخلات صورية متعددة

Daoan Zhang Junming Yang Hanjia Lyu Zijian Jin Yuan Yao Mingkai Chen Jiebo Luo

الملخص

عند استكشاف تطوير الذكاء العام الاصطناعي (AGI)، فإن مهمة حاسمة لهذه النماذج تتضمن تفسير ومعالجة المعلومات من مدخلات صورية متعددة. ومع ذلك، تواجه النماذج المتعددة الأوضاع الكبيرة (LMMs) مشكلتين في مثل هذه السيناريوهات: (1) نقص الإدراك الدقيق، و(2) ميل إلى دمج المعلومات عبر الصور المتعددة. أولاً، نقوم بدراسة شاملة لقدرة النماذج المتعددة الأوضاع الكبيرة على إدراك التفاصيل البصرية الدقيقة عند التعامل مع صور متعددة كمدخلات. يركز البحث على جوانبين رئيسيين: أولًا، مطابقة الصورة بالصورة (لتقييم ما إذا كانت النماذج المتعددة الأوضاع الكبيرة قادرة على الاستدلال بشكل فعال وتطابق الصور ذات الصلة)، وثانيًا، مطابقة الصور المتعددة بالنص (لتقييم ما إذا كانت النماذج المتعددة الأوضاع الكبيرة قادرة على التقاط وتلخيص المعلومات التفصيلية من الصور). نجري تقييمات على مجموعة من النماذج الكبيرة المفتوحة المصدر والمغلقة المصدر، بما في ذلك GPT-4V، Gemini، OpenFlamingo، و MMICL. لتعزيز أداء النموذج، نطور أيضًا طريقة التحفيز السلسسلية التباينية (CoCoT) المستندة إلى النماذج المتعددة الأوضاع والمدخلات المتعددة. تتطلب هذه الطريقة من النماذج المتعددة الأوضاع الكبيرة مقارنة الشبهات والاختلافات بين المدخلات الصورية المتعددة، ومن ثم إرشاد هذه النماذج للإجابة على أسئلة تفصيلية حول المدخلات الصورية المتعددة بناءً على الشبهات والاختلافات المحددة. تظهر نتائج تجاربنا كفاءة CoCoT في تعزيز قدرات الفهم للصور المتعددة في النماذج المتعددة الأوضاع الكبيرة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp