Datum

vor einem Monat

Organisation

Paper-URL

2512.17495

Lizenz

Other

Tags

LLM

Multimodal

Natürliche Sprachverarbeitung

GroundingME ist ein visueller Referenzdatensatz zur Evaluierung multimodaler großer Sprachmodelle (MLLMs), der 2025 von der Tsinghua-Universität in Zusammenarbeit mit Xiaomi, der Universität Hongkong und weiteren Institutionen veröffentlicht wurde. Zugehörige Forschungsarbeiten umfassen… GroundingME: Aufdeckung der visuellen Erdungslücke in MLLMs durch mehrdimensionale BewertungZiel ist es, die Fähigkeit des Modells systematisch zu bewerten, natürliche Sprache in komplexen realen Szenarien präzise visuellen Zielen zuzuordnen, wobei besonderes Augenmerk auf das Verständnis und die Sicherheit in Situationen mit mehrdeutigen Referenzen, komplexen räumlichen Beziehungen, kleinen Zielen, Verdeckung und Nichtreferenzialität gelegt wird.

Dieser Datensatz enthält 1.005 Evaluierungsbeispiele. Die Bilder stammen aus zwei hochwertigen Datensätzen, SA-1B und HR-Bench. Um Datenverfälschungen zu vermeiden, wurden ausschließlich die Originalbilder für die Aufgaben verwendet. Die Beispiele decken vier Hauptaufgabenkategorien ab: diskriminative Referenz (204 Beispiele, 20,31 TP3T), räumliches Beziehungsverständnis (300 Beispiele, 29,91 TP3T), Szenen mit eingeschränkter Sicht (300 Beispiele, 29,91 TP3T) und nicht-referenzielle Ablehnungsaufgabe (201 Beispiele, 20,01 TP3T). Diese sind in zwölf Unteraufgaben mit einer ausgewogenen Gesamtverteilung unterteilt. Der Datensatz umfasst 241 reale Objektklassen. In einem Bild befinden sich viele Objekte derselben Klasse, wobei die einzelnen Objekte in der Regel nur einen kleinen Teil des Bildes einnehmen. Die sprachlichen Beschreibungen sind deutlich länger als in bestehenden Referenzdatensätzen, was die Schwierigkeit visueller Referenzaufgaben in mehrfacher Hinsicht erheblich erhöht.

Dieser Datensatz wurde von Community-Nutzern beigesteuert und dient ausschließlich Bildungs- und Informationszwecken. Falls Inhalte eine Urheberrechtsverletzung darstellen, kontaktieren Sie uns bitte unter [email protected] zur umgehenden Prüfung und Entfernung.

Verwandt Datensätze

DeepSearchQA Mehrstufiger Datensatz Zur Informationssuche Und Beantwortung Von Fragen

vor einem Monat

MUVR Multimodal Uncropped Video Retrieval Benchmark

vor 2 Monaten

HumanSense Benchmark-Datensatz

vor 3 Monaten

3EED-Datensatz Zur Sprachgesteuerten 3D-Verständnisentwicklung

vor 2 Monaten

6.73 GB73

GroundCUA-Schnittstellen-Übungsdatensatz

vor 2 Monaten

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

Auf Discord diskutieren

Datum

vor einem Monat

Organisation

Paper-URL

2512.17495

Lizenz

Other