الملخص

تُعدّ القدرة على إنتاج استجابات طبيعية وذات معنى للتفاعل مع مدخلات بشرية متعددة الأنواع (متعددة الوسائط) ميزة أساسية في النماذج الكبيرة للفهم البصري واللغوي (LVLMs). وعلى الرغم من الأداء الواعد الذي تُظهره النماذج المفتوحة المصدر من LVLMs في السيناريوهات المبسطة، مثل المدخلات أحادية الدور وأحادية الصورة، فإنها تُظهر عجزًا في سيناريوهات المحادثة الواقعية، مثل اتباع التعليمات في سياق طويل يحتوي على محادثات متعددة الأدوار وصور متعددة. وتركز المعايير الحالية لقياس أداء LVLMs بشكل رئيسي على الأسئلة ذات الخيارات المتعددة أو الإجابات القصيرة، ما لا يكفي لتقييم القدرات الحقيقية للنماذج في تطبيقات التفاعل بين الإنسان والذكاء الاصطناعي. ولذلك، نُقدّم MMDU، وهو معيار شامل، وMMDU-45k، وهو مجموعة بيانات ضخمة للتدريب المُعدّل (instruction tuning)، مصمّمان لتقييم وتحسين قدرات LVLMs في المحادثات متعددة الأدوار ومتعددة الصور. استخدمنا خوارزمية التجميع (clustering) لاستخراج الصور والوصف النصي المتعلق من وثائق ويكيبيديا المفتوحة المصدر، وتم إنشاء أزواج الأسئلة والإجابات بواسطة مُعلّقين بشريين بمساعدة نموذج GPT-4o. يحتوي MMDU على ما يصل إلى 18,000 رمزًا (token) مدمجة بين صور ونصوص، و20 صورة، و27 دورة محادثة، ما يجعله أطول بخمس مرات على الأقل مقارنةً بالمعاير السابقة، ويُشكّل تحديًا حقيقيًا للنماذج الحالية من LVLMs. وخلال تحليلنا العميق لـ 15 نموذجًا رائدًا من LVLMs باستخدام MMDU، كشفنا أن النماذج المفتوحة المصدر تتخلف عن نظيراتها المغلقة المصدر بسبب نقص بيانات التدريب المُعدّلة للدردشة. ونُظهر أن التدريب الدقيق (fine-tuning) للنماذج المفتوحة المصدر على مجموعة MMDU-45k يُسهم بشكل كبير في تقليل هذا الفجوة، من خلال إنتاج محادثات أطول وأكثر دقة، وتحسّن في الدرجات على MMDU والمعاير الحالية (MMStar: +1.1%، MathVista: +1.5%، ChartQA: +1.2%). تُمكّن مساهماتنا من تقليل الفجوة بين النماذج الحالية من LVLMs والمتطلبات الفعلية لتطبيقات العالم الحقيقي. يُمكن الاطلاع على هذا المشروع عبر الرابط: https://github.com/Liuziyu77/MMDU.

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

MMDU: معيار فهم المحادثة متعددة الجولات ومتعددة الصور ومجموعة بيانات لتنضيد التعليم للنماذج متعددة الوسائط ذات التوسع الكبير

Ziyu Liu Tao Chu Yuhang Zang Xilin Wei Xiaoyi Dong Pan Zhang Zijian Liang Yuanjun Xiong Yu Qiao Dahua Lin1 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

MMDU: معيار فهم المحادثة متعددة الجولات ومتعددة الصور ومجموعة بيانات لتنضيد التعليم للنماذج متعددة الوسائط ذات التوسع الكبير

Ziyu Liu Tao Chu Yuhang Zang Xilin Wei Xiaoyi Dong Pan Zhang Zijian Liang Yuanjun Xiong Yu Qiao Dahua Lin1 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

MMDU: معيار فهم المحادثة متعددة الجولات ومتعددة الصور ومجموعة بيانات لتنضيد التعليم للنماذج متعددة الوسائط ذات التوسع الكبير

Ziyu Liu Tao Chu Yuhang Zang Xilin Wei Xiaoyi Dong Pan Zhang Zijian Liang Yuanjun Xiong Yu Qiao Dahua Lin1 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Ziyu Liu Tao Chu Yuhang Zang Xilin Wei Xiaoyi Dong Pan Zhang Zijian Liang Yuanjun Xiong Yu Qiao Dahua Lin

Ziyu Liu Tao Chu Yuhang Zang Xilin Wei Xiaoyi Dong Pan Zhang Zijian Liang Yuanjun Xiong Yu Qiao Dahua Lin

Ziyu Liu Tao Chu Yuhang Zang Xilin Wei Xiaoyi Dong Pan Zhang Zijian Liang Yuanjun Xiong Yu Qiao Dahua Lin