HyperAIHyperAI

Command Palette

Search for a command to run...

MMEvalPro Multimodaler Benchmark-Evaluierungsdatensatz

Datum

vor einem Jahr

Größe

237.76 MB

Organisation

Die Chinesische Universität von Hongkong

Veröffentlichungs-URL

github.com

Paper-URL

arxiv.org

MMEvalPro ist ein Bewertungsbenchmark für multimodale Großmodelle (LMMs), der 2024 von einem Forschungsteam der Peking-Universität, der Chinesischen Akademie der Medizinischen Wissenschaften, der Chinesischen Universität Hongkong und Alibaba vorgeschlagen wurde. Ziel ist es, eine zuverlässigere und effizientere Bewertungsmethode bereitzustellen und die Probleme bestehender multimodaler Bewertungsbenchmarks zu lösen. Vorhandene Benchmarks weisen bei der Bewertung von LMMs systematische Verzerrungen auf, und selbst große Sprachmodelle (LLMs) ohne visuelle Wahrnehmung können bei diesen Benchmarks eine nicht triviale Leistung erzielen, was die Glaubwürdigkeit dieser Bewertungen untergräbt. MMEvalPro verbessert bestehende Bewertungsmethoden durch das Hinzufügen von zwei „Ankerfragen“ (einer Wahrnehmungsfrage und einer Wissensfrage) und bildet so ein „Fragentripel“, das verschiedene Aspekte des multimodalen Verständnisses eines Modells testet.

Das wichtigste Bewertungsmaß von MEvalPro ist die „echte Genauigkeit“. Dabei muss das Modell alle Fragen in einem Triplett richtig beantworten, um eine Punktzahl zu erhalten. Der Prozess umfasst mehrere Überprüfungs- und Qualitätsprüfungsphasen, um sicherzustellen, dass die Fragen klar, relevant und anspruchsvoll sind. Der endgültige Benchmark enthält 2.138 Fragentripel, also insgesamt 6.414 verschiedene Fragen zu unterschiedlichen Themen und Schwierigkeitsgraden.

Beispiel einer dreistufigen Bewertung in MMEvalPro
MMEvalPro.torrent
Seeding 1Herunterladen 0Abgeschlossen 155Gesamtdownloads 175
  • MMEvalPro/
    • README.md
      1.95 KB
    • README.txt
      3.9 KB
      • data/
        • MMEvalPro.zip
          237.76 MB

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
MMEvalPro Multimodaler Benchmark-Evaluierungsdatensatz | Datensätze | HyperAI