CoCoT: التحفيز المقارن للسلاسل الفكرية في النماذج المتعددة الوسائط الكبيرة مع مدخلات صورية متعددة

عند استكشاف تطوير الذكاء العام الاصطناعي (AGI)، فإن مهمة حاسمة لهذه النماذج تتضمن تفسير ومعالجة المعلومات من مدخلات صورية متعددة. ومع ذلك، تواجه النماذج المتعددة الأوضاع الكبيرة (LMMs) مشكلتين في مثل هذه السيناريوهات: (1) نقص الإدراك الدقيق، و(2) ميل إلى دمج المعلومات عبر الصور المتعددة. أولاً، نقوم بدراسة شاملة لقدرة النماذج المتعددة الأوضاع الكبيرة على إدراك التفاصيل البصرية الدقيقة عند التعامل مع صور متعددة كمدخلات. يركز البحث على جوانبين رئيسيين: أولًا، مطابقة الصورة بالصورة (لتقييم ما إذا كانت النماذج المتعددة الأوضاع الكبيرة قادرة على الاستدلال بشكل فعال وتطابق الصور ذات الصلة)، وثانيًا، مطابقة الصور المتعددة بالنص (لتقييم ما إذا كانت النماذج المتعددة الأوضاع الكبيرة قادرة على التقاط وتلخيص المعلومات التفصيلية من الصور). نجري تقييمات على مجموعة من النماذج الكبيرة المفتوحة المصدر والمغلقة المصدر، بما في ذلك GPT-4V، Gemini، OpenFlamingo، و MMICL. لتعزيز أداء النموذج، نطور أيضًا طريقة التحفيز السلسسلية التباينية (CoCoT) المستندة إلى النماذج المتعددة الأوضاع والمدخلات المتعددة. تتطلب هذه الطريقة من النماذج المتعددة الأوضاع الكبيرة مقارنة الشبهات والاختلافات بين المدخلات الصورية المتعددة، ومن ثم إرشاد هذه النماذج للإجابة على أسئلة تفصيلية حول المدخلات الصورية المتعددة بناءً على الشبهات والاختلافات المحددة. تظهر نتائج تجاربنا كفاءة CoCoT في تعزيز قدرات الفهم للصور المتعددة في النماذج المتعددة الأوضاع الكبيرة.