HyperAIHyperAI

Command Palette

Search for a command to run...

vor 20 Tagen

UNO-Bench: Ein einheitlicher Benchmark zur Untersuchung des Zusammensetzungsgesetzes zwischen einmodalen und omni-modalen Komponenten in omni-Modellen

Chen Chen ZeYang Hu Fengjiao Chen Liya Ma Jiaxing Liu Xiaoyu Li Ziwen Wang Xuezhi Cao Xunliang Cai

UNO-Bench: Ein einheitlicher Benchmark zur Untersuchung des Zusammensetzungsgesetzes zwischen einmodalen und omni-modalen Komponenten in omni-Modellen

Abstract

Multimodale große Sprachmodelle entwickeln sich zunehmend von der einmodalen Verarbeitung hin zu einer Integration von visuellen, auditiven und sprachlichen Modalitäten, die gemeinsam als Omni-Modelle bezeichnet werden. Doch die Korrelation zwischen einmodalen und omni-modalen Fähigkeiten bleibt bisher unklar, was eine umfassende Bewertung erfordert, um die Weiterentwicklung der Intelligenz von Omni-Modellen voranzutreiben. In dieser Arbeit stellen wir einen neuartigen, hochwertigen und einheitlichen Benchmark für Omni-Modelle vor: UNO-Bench. Dieser Benchmark ist darauf ausgelegt, sowohl einmodale als auch omni-modale Fähigkeiten unter einer einheitlichen Fähigkeitstaxonomie effektiv zu bewerten und umfasst 44 Aufgabentypen sowie fünf Kombinationen von Modalitäten. Er enthält 1250 menschlich kuratierte omni-modale Beispiele mit einer Kreuzmodalkompetenz von 98 % sowie 2480 verbesserte einmodale Beispiele. Das menschlich generierte Datenset ist besonders gut für reale Anwendungsszenarien geeignet, insbesondere im chinesischen Kontext, während das automatisch komprimierte Datenset eine 90-prozentige Geschwindigkeitssteigerung bietet und eine Konsistenz von 98 % über 18 öffentliche Benchmarks aufrechterhält. Neben traditionellen Multiple-Choice-Fragen führen wir ein innovatives, mehrschrittiges offenes Antwortformat ein, um komplexe Schlussfolgerungsfähigkeiten zu testen. Ein allgemeiner Bewertungsmodell wird integriert, das sechs Fragearten für die automatisierte Bewertung unterstützt und dabei eine Genauigkeit von 95 % erreicht. Experimentelle Ergebnisse zeigen eine zusammengesetzte Gesetzmäßigkeit zwischen omni-modaler und einmodaler Leistung: Bei schwachen Modellen wirkt die omni-modale Fähigkeit als Engpass, während sie bei starken Modellen eine synergistische Förderung bewirkt.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
UNO-Bench: Ein einheitlicher Benchmark zur Untersuchung des Zusammensetzungsgesetzes zwischen einmodalen und omni-modalen Komponenten in omni-Modellen | Forschungsarbeiten | HyperAI