Command Palette
Search for a command to run...
MMDU: معيار فهم المحادثة متعددة الجولات ومتعددة الصور ومجموعة بيانات لتنضيد التعليم للنماذج متعددة الوسائط ذات التوسع الكبير

الملخص
تُعدّ القدرة على إنتاج استجابات طبيعية وذات معنى للتفاعل مع مدخلات بشرية متعددة الأنواع (متعددة الوسائط) ميزة أساسية في النماذج الكبيرة للفهم البصري واللغوي (LVLMs). وعلى الرغم من الأداء الواعد الذي تُظهره النماذج المفتوحة المصدر من LVLMs في السيناريوهات المبسطة، مثل المدخلات أحادية الدور وأحادية الصورة، فإنها تُظهر عجزًا في سيناريوهات المحادثة الواقعية، مثل اتباع التعليمات في سياق طويل يحتوي على محادثات متعددة الأدوار وصور متعددة. وتركز المعايير الحالية لقياس أداء LVLMs بشكل رئيسي على الأسئلة ذات الخيارات المتعددة أو الإجابات القصيرة، ما لا يكفي لتقييم القدرات الحقيقية للنماذج في تطبيقات التفاعل بين الإنسان والذكاء الاصطناعي. ولذلك، نُقدّم MMDU، وهو معيار شامل، وMMDU-45k، وهو مجموعة بيانات ضخمة للتدريب المُعدّل (instruction tuning)، مصمّمان لتقييم وتحسين قدرات LVLMs في المحادثات متعددة الأدوار ومتعددة الصور. استخدمنا خوارزمية التجميع (clustering) لاستخراج الصور والوصف النصي المتعلق من وثائق ويكيبيديا المفتوحة المصدر، وتم إنشاء أزواج الأسئلة والإجابات بواسطة مُعلّقين بشريين بمساعدة نموذج GPT-4o. يحتوي MMDU على ما يصل إلى 18,000 رمزًا (token) مدمجة بين صور ونصوص، و20 صورة، و27 دورة محادثة، ما يجعله أطول بخمس مرات على الأقل مقارنةً بالمعاير السابقة، ويُشكّل تحديًا حقيقيًا للنماذج الحالية من LVLMs. وخلال تحليلنا العميق لـ 15 نموذجًا رائدًا من LVLMs باستخدام MMDU، كشفنا أن النماذج المفتوحة المصدر تتخلف عن نظيراتها المغلقة المصدر بسبب نقص بيانات التدريب المُعدّلة للدردشة. ونُظهر أن التدريب الدقيق (fine-tuning) للنماذج المفتوحة المصدر على مجموعة MMDU-45k يُسهم بشكل كبير في تقليل هذا الفجوة، من خلال إنتاج محادثات أطول وأكثر دقة، وتحسّن في الدرجات على MMDU والمعاير الحالية (MMStar: +1.1%، MathVista: +1.5%، ChartQA: +1.2%). تُمكّن مساهماتنا من تقليل الفجوة بين النماذج الحالية من LVLMs والمتطلبات الفعلية لتطبيقات العالم الحقيقي. يُمكن الاطلاع على هذا المشروع عبر الرابط: https://github.com/Liuziyu77/MMDU.
مستودعات الكود
المعايير القياسية
| معيار قياسي | المنهجية | المقاييس |
|---|---|---|
| visual-question-answering-on-mm-vet | InternLM-XC2 + MMDU-45k | GPT-4 score: 38.8 |
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.