HyperAIHyperAI

Command Palette

Search for a command to run...

MMEvalPro Multimodaler Benchmark-Evaluierungsdatensatz

Date

vor einem Jahr

Size

237.76 MB

Organization

Peking-Universität
Die Chinesische Universität von Hongkong

Publish URL

github.com

Paper URL

arxiv.org

MMEvalPro ist ein Bewertungsbenchmark für multimodale Großmodelle (LMMs), der 2024 von einem Forschungsteam der Peking-Universität, der Chinesischen Akademie der Medizinischen Wissenschaften, der Chinesischen Universität Hongkong und Alibaba vorgeschlagen wurde. Ziel ist es, eine zuverlässigere und effizientere Bewertungsmethode bereitzustellen und die Probleme bestehender multimodaler Bewertungsbenchmarks zu lösen. Vorhandene Benchmarks weisen bei der Bewertung von LMMs systematische Verzerrungen auf, und selbst große Sprachmodelle (LLMs) ohne visuelle Wahrnehmung können bei diesen Benchmarks eine nicht triviale Leistung erzielen, was die Glaubwürdigkeit dieser Bewertungen untergräbt. MMEvalPro verbessert bestehende Bewertungsmethoden durch das Hinzufügen von zwei „Ankerfragen“ (einer Wahrnehmungsfrage und einer Wissensfrage) und bildet so ein „Fragentripel“, das verschiedene Aspekte des multimodalen Verständnisses eines Modells testet.

Das wichtigste Bewertungsmaß von MEvalPro ist die „echte Genauigkeit“. Dabei muss das Modell alle Fragen in einem Triplett richtig beantworten, um eine Punktzahl zu erhalten. Der Prozess umfasst mehrere Überprüfungs- und Qualitätsprüfungsphasen, um sicherzustellen, dass die Fragen klar, relevant und anspruchsvoll sind. Der endgültige Benchmark enthält 2.138 Fragentripel, also insgesamt 6.414 verschiedene Fragen zu unterschiedlichen Themen und Schwierigkeitsgraden.

Beispiel einer dreistufigen Bewertung in MMEvalPro
MMEvalPro.torrent
Seeding 1Downloading 0Completed 181Total Downloads 211
  • MMEvalPro/
    • README.md
      1.95 KB
    • README.txt
      3.9 KB
      • data/
        • MMEvalPro.zip
          237.76 MB

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp