HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 5 أشهر

MMDU: معيار فهم المحادثة متعددة الجولات ومتعددة الصور ومجموعة بيانات لتنضيد التعليم للنماذج متعددة الوسائط ذات التوسع الكبير

MMDU: معيار فهم المحادثة متعددة الجولات ومتعددة الصور ومجموعة بيانات لتنضيد التعليم للنماذج متعددة الوسائط ذات التوسع الكبير

الملخص

تُعدّ القدرة على إنتاج استجابات طبيعية وذات معنى للتفاعل مع مدخلات بشرية متعددة الأنواع (متعددة الوسائط) ميزة أساسية في النماذج الكبيرة للفهم البصري واللغوي (LVLMs). وعلى الرغم من الأداء الواعد الذي تُظهره النماذج المفتوحة المصدر من LVLMs في السيناريوهات المبسطة، مثل المدخلات أحادية الدور وأحادية الصورة، فإنها تُظهر عجزًا في سيناريوهات المحادثة الواقعية، مثل اتباع التعليمات في سياق طويل يحتوي على محادثات متعددة الأدوار وصور متعددة. وتركز المعايير الحالية لقياس أداء LVLMs بشكل رئيسي على الأسئلة ذات الخيارات المتعددة أو الإجابات القصيرة، ما لا يكفي لتقييم القدرات الحقيقية للنماذج في تطبيقات التفاعل بين الإنسان والذكاء الاصطناعي. ولذلك، نُقدّم MMDU، وهو معيار شامل، وMMDU-45k، وهو مجموعة بيانات ضخمة للتدريب المُعدّل (instruction tuning)، مصمّمان لتقييم وتحسين قدرات LVLMs في المحادثات متعددة الأدوار ومتعددة الصور. استخدمنا خوارزمية التجميع (clustering) لاستخراج الصور والوصف النصي المتعلق من وثائق ويكيبيديا المفتوحة المصدر، وتم إنشاء أزواج الأسئلة والإجابات بواسطة مُعلّقين بشريين بمساعدة نموذج GPT-4o. يحتوي MMDU على ما يصل إلى 18,000 رمزًا (token) مدمجة بين صور ونصوص، و20 صورة، و27 دورة محادثة، ما يجعله أطول بخمس مرات على الأقل مقارنةً بالمعاير السابقة، ويُشكّل تحديًا حقيقيًا للنماذج الحالية من LVLMs. وخلال تحليلنا العميق لـ 15 نموذجًا رائدًا من LVLMs باستخدام MMDU، كشفنا أن النماذج المفتوحة المصدر تتخلف عن نظيراتها المغلقة المصدر بسبب نقص بيانات التدريب المُعدّلة للدردشة. ونُظهر أن التدريب الدقيق (fine-tuning) للنماذج المفتوحة المصدر على مجموعة MMDU-45k يُسهم بشكل كبير في تقليل هذا الفجوة، من خلال إنتاج محادثات أطول وأكثر دقة، وتحسّن في الدرجات على MMDU والمعاير الحالية (MMStar: +1.1%، MathVista: +1.5%، ChartQA: +1.2%). تُمكّن مساهماتنا من تقليل الفجوة بين النماذج الحالية من LVLMs والمتطلبات الفعلية لتطبيقات العالم الحقيقي. يُمكن الاطلاع على هذا المشروع عبر الرابط: https://github.com/Liuziyu77/MMDU.

مستودعات الكود

liuziyu77/mmdu
رسمي
pytorch
مذكور في GitHub

المعايير القياسية

معيار قياسيالمنهجيةالمقاييس
visual-question-answering-on-mm-vetInternLM-XC2 + MMDU-45k
GPT-4 score: 38.8

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
MMDU: معيار فهم المحادثة متعددة الجولات ومتعددة الصور ومجموعة بيانات لتنضيد التعليم للنماذج متعددة الوسائط ذات التوسع الكبير | الأوراق البحثية | HyperAI