HyperAIHyperAI

Command Palette

Search for a command to run...

مجموعة بيانات تقييم المعايير المتعددة الوسائط MMEvalPro

التاريخ

منذ عام واحد

الحجم

237.76 MB

المؤسسة

الجامعة الصينية في هونغ كونغ

رابط النشر

github.com

رابط الورقة البحثية

arxiv.org

MMEvalPro هو معيار تقييم نموذج كبير متعدد الوسائط (LMMs) تم اقتراحه في عام 2024 من قبل فريق بحثي من جامعة بكين والأكاديمية الصينية للعلوم الطبية والجامعة الصينية في هونج كونج وعلي بابا. ويهدف إلى توفير طريقة تقييم أكثر موثوقية وكفاءة وحل المشاكل الموجودة في معايير التقييم المتعدد الوسائط الحالية. تحتوي المعايير المرجعية الحالية على تحيزات منهجية في تقييم نماذج اللغة الكبيرة (LMMs)، وحتى نماذج اللغة الكبيرة (LLMs) التي لا تتمتع بالوعي البصري يمكن أن تحقق أداءً غير تافه على هذه المعايير المرجعية، مما يقوض مصداقية هذه التقييمات. يعمل MMEvalPro على تحسين طرق التقييم الحالية من خلال إضافة سؤالين "رئيسيين" (سؤال إدراكي وسؤال معرفي)، مما يشكل "ثلاثية أسئلة" تختبر جوانب مختلفة من الفهم المتعدد الوسائط للنموذج.

المقياس التقييمي الرئيسي لـ MEvalPro هو "الدقة الحقيقية"، والذي يتطلب من النموذج الإجابة بشكل صحيح على جميع الأسئلة في ثلاثية للحصول على درجة. تتضمن العملية مراحل متعددة من المراجعة والتحقق من الجودة للتأكد من أن الأسئلة واضحة وذات صلة وتشكل تحديًا. يحتوي المعيار النهائي على 2138 ثلاثية سؤال، بإجمالي 6414 سؤالاً مختلفًا تغطي مواضيع ومستويات صعوبة مختلفة.

مثال على تقييم من ثلاث خطوات في MMEvalPro
MMEvalPro.torrent
البذر 1التنزيل 0مكتمل 155إجمالي التنزيلات 175
  • MMEvalPro/
    • README.md
      1.95 KB
    • README.txt
      3.9 KB
      • data/
        • MMEvalPro.zip
          237.76 MB

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
مجموعة بيانات تقييم المعايير المتعددة الوسائط MMEvalPro | مجموعات البيانات | HyperAI