HyperAIHyperAI

Command Palette

Search for a command to run...

مجموعة بيانات فهم الحوار متعدد الصور متعدد الأدوار MMDU طويلة جدًا

التاريخ

منذ 2 أعوام

الحجم

719.91 MB

المؤسسة

جامعة هونج كونج الصينية
خيوط مور
جامعة ووهان
مختبر الذكاء الاصطناعي في شنغهاي

عنوان URL للنشر

github.com

رابط الورقة البحثية

arxiv.org

الترخيص

CC BY-NC-SA 3.0

Featured Image

MMDU (فهم الحوار متعدد الصور متعدد الأدوار) هي مجموعة بيانات لفهم الحوار متعدد الصور متعدد الأدوار طويل للغاية تم إطلاقها بشكل مشترك من قبل جامعة ووهان ومختبر الذكاء الاصطناعي في شنغهاي وجامعة هونج كونج الصينية ومور ثريدز في عام 2024. نشر فريق البحث الورقةMMDU: مجموعة بيانات فهم معايير ضبط التعليمات وحوار متعدد الأدوار ومتعدد الصور لأجهزة LVLM"تم اقتراح معيار تقييم جديد متعدد الصور ومتعدد الجولات MMDU ومجموعة بيانات ضبط التعليمات واسعة النطاق MMDU-45k في الورقة، بهدف تقييم وتحسين أداء LVLMs في المحادثات متعددة الجولات ومتعددة الصور.

يتكون المعيار من 110 حوارات عالية الجودة متعددة الصور ومتعددة الأدوار مع أكثر من 1600 سؤال، كل منها مع إجابة طويلة مفصلة. تتضمن المعايير السابقة عادةً صورة واحدة فقط أو عددًا صغيرًا من الصور، مع جولات أقل من الأسئلة وإجابات قصيرة. ومع ذلك، فإن MMDU يزيد بشكل كبير من عدد الصور وجولات الأسئلة والأجوبة وطول سياق الأسئلة والأجوبة. تتضمن المشكلات في MMUD ما بين 2 إلى 20 صورة، بمتوسط طول علامة الصورة والنص 8.2 ألف علامة وطول أقصى للصورة والنص 18 ألف علامة، مما يشكل تحديات كبيرة للنماذج واسعة النطاق متعددة الوسائط الحالية.

في MMDU-45k، قام فريق البحث ببناء ما مجموعه 45 ألف حوار بيانات ضبط التعليمات. تحتوي كل البيانات في مجموعة البيانات MMDU-45k على سياق طويل للغاية، مع متوسط طول رمز الصورة والنص 5 كيلو بايت وأقصى طول رمز الصورة والنص 17 كيلو بايت. تحتوي كل محادثة على ما معدله 9 جولات من الأسئلة والأجوبة وبحد أقصى 27 جولة. بالإضافة إلى ذلك، تحتوي كل قطعة من البيانات على محتوى 2-5 صور. تم إنشاء مجموعة البيانات بتنسيق مصمم بعناية مع قابلية توسع ممتازة، ويمكن دمجها لتوليد المزيد من المحادثات الطويلة متعددة الرسوم البيانية ومتعددة الأدوار. يتجاوز طول الرسم البياني وعدد الجولات في MMDU-45k جميع مجموعات بيانات ضبط التعليمات الموجودة بشكل كبير. يعمل هذا التحسين على تحسين قدرة النموذج على التعرف على الصور المتعددة وفهمها بشكل كبير، بالإضافة إلى قدرته على التعامل مع المحادثات السياقية الطويلة.

يتمتع معيار MMDU بالمزايا التالية:

(1) حوار متعدد الجولات وإدخال صور متعددة:يتكون معيار MMDU من ما يصل إلى 20 صورة و27 جولة من حوارات الأسئلة والأجوبة، متجاوزًا العديد من المعايير السابقة ويحاكي بشكل واقعي سيناريوهات التفاعل في الدردشة في العالم الحقيقي.

(2) السياق الطويل:يقوم معيار MMDU بتقييم قدرة LVLMs على معالجة وفهم المعلومات السياقية ذات السجلات السياقية الطويلة من خلال ما يصل إلى 18 ألف رمز نصي + صورة.

(3) التقييم المفتوح:يبتعد نموذج MMDU عن الأسئلة المغلقة والمخرجات القصيرة (على سبيل المثال، أسئلة الاختيار من متعدد أو الإجابات القصيرة) التي تعتمد عليها معايير التقييم التقليدية، ويتبنى نهج تقييم أكثر واقعية ودقة. يقوم بتقييم أداء LVLM من خلال مخرجات متعددة الجولات ذات شكل حر، مع التركيز على قابلية التوسع وقابلية تفسير نتائج التقييم.

في عملية بناء MMDU، اختار الباحثون صورًا ومعلومات نصية ذات صلة عالية من ويكيبيديا مفتوحة المصدر، وبمساعدة نموذج GPT-4o، قام المعلقون البشريون ببناء أزواج من الأسئلة والأجوبة.

MMDU.torrent
البذر 1جارٍ التنزيل 0مكتمل 236إجمالي التنزيلات 294
  • MMDU/
    • README.md
      3.44 KB
    • README.txt
      6.88 KB
      • data/
        • mmdu.zip
          719.91 MB

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp