HyperAIHyperAI

Command Palette

Search for a command to run...

UNO-Bench Benchmark-Datensatz Für Die Vollständige Modalbewertung

Datum

vor 6 Tagen

Organisation

Paper-URL

2510.18915

Lizenz

MIT

UNO-Bench ist der erste einheitliche, vollmodale Evaluierungs-Benchmark, der 2025 vom LongCat-Team von Meituan veröffentlicht wurde. Die zugehörige Veröffentlichung trägt den Titel „UNO-Bench: Ein einheitlicher Benchmark zur Untersuchung des Kompositionsgesetzes zwischen unimodalen und omnimodalen Modellen in Omni-ModellenZiel ist es, die Fähigkeiten zum unimodalen und multimodalen Verständnis effizient zu bewerten.

Dieser Datensatz umfasst 1250 vollständig modale Beispiele mit 98%-übergreifender Lösbarkeit und 2480 unimodale Beispiele. Er deckt 44 Aufgabentypen und 5 Modalitätskombinationen ab. Der Datensatz beinhaltet außerdem ein allgemeines Bewertungsmodell, das die automatisierte Auswertung von 6 Fragetypen ermöglicht und somit einen einheitlichen Bewertungsstandard für multimodale Aufgaben bietet. Die vollständig modalen Beispiele wurden sorgfältig von Experten erstellt, um realen Anwendungen möglichst nahe zu kommen und eignen sich besonders für den chinesischen Kontext. Die unimodalen Beispiele ergänzen die grundlegenden kognitiven und leistungsbezogenen Dimensionen und ermöglichen so eine umfassendere Gesamtbewertung.

Datenstrukturen:

Die Daten werden im Parquet-Format gespeichert, und jede Stichprobe enthält strukturierte Felder:

  • qid (Proben-ID), subset_name (Teilmengenname);
  • Frage (Textfrage) und Antwort (Standardantwort);
  • Bilder / Audiodateien / Videos (multimodale Inhalte, Dateipfade werden als Wörterbuch gespeichert, null, falls nicht vorhanden);
  • Aufgabe (44 Aufgaben-Tags), Fähigkeit (Fähigkeitstyp), Quelle (Datenquelle), Bewertungsmethode (Bewertungsmethode).
Dataset-Beispiel

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp