Command Palette
Search for a command to run...
UNO-Bench Benchmark-Datensatz Für Die Vollständige Modalbewertung
Date
Size
Paper URL
License
MIT
UNO-Bench ist der erste einheitliche, vollmodale Evaluierungs-Benchmark, der 2025 vom LongCat-Team von Meituan veröffentlicht wurde. Die zugehörige Veröffentlichung trägt den Titel „UNO-Bench: Ein einheitlicher Benchmark zur Untersuchung des Kompositionsgesetzes zwischen unimodalen und omnimodalen Modellen in Omni-ModellenZiel ist es, die Fähigkeiten zum unimodalen und multimodalen Verständnis effizient zu bewerten.
Dieser Datensatz umfasst 1250 vollständig modale Beispiele mit 98%-übergreifender Lösbarkeit und 2480 unimodale Beispiele. Er deckt 44 Aufgabentypen und 5 Modalitätskombinationen ab. Der Datensatz beinhaltet außerdem ein allgemeines Bewertungsmodell, das die automatisierte Auswertung von 6 Fragetypen ermöglicht und somit einen einheitlichen Bewertungsstandard für multimodale Aufgaben bietet. Die vollständig modalen Beispiele wurden sorgfältig von Experten erstellt, um realen Anwendungen möglichst nahe zu kommen und eignen sich besonders für den chinesischen Kontext. Die unimodalen Beispiele ergänzen die grundlegenden kognitiven und leistungsbezogenen Dimensionen und ermöglichen so eine umfassendere Gesamtbewertung.
Datenstrukturen:
Die Daten werden im Parquet-Format gespeichert, und jede Stichprobe enthält strukturierte Felder:
- qid (Proben-ID), subset_name (Teilmengenname);
- Frage (Textfrage) und Antwort (Standardantwort);
- Bilder / Audiodateien / Videos (multimodale Inhalte, Dateipfade werden als Wörterbuch gespeichert, null, falls nicht vorhanden);
- Aufgabe (44 Aufgaben-Tags), Fähigkeit (Fähigkeitstyp), Quelle (Datenquelle), Bewertungsmethode (Bewertungsmethode).

Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.