HyperAIHyperAI

Command Palette

Search for a command to run...

CulturalGround – Mehrsprachiger Datensatz Für Visuelle Fragen Und Antworten

Datum

vor 3 Monaten

Organisation

Carnegie Mellon Universität

Paper-URL

2508.07414

Lizenz

Apache 2.0

Treten Sie der Discord-Community bei

CulturalGround ist ein mehrsprachiger und multimodaler visueller Frage-Antwort-Datensatz zur kulturellen Wissensausrichtung, der 2025 von NeuLab an der Carnegie Mellon University veröffentlicht wurde. „Kulturelles Wissen für mehrsprachige und multimodale LLMs“, dessen Ziel es ist, das Verständnis und die Argumentationsfähigkeiten des multimodalen Großsprachenmodells in Bezug auf kulturelle Nischeneinheiten und ressourcenarme Sprachen zu verbessern.

Der Datensatz enthält 22 Millionen hochwertige, kulturell vielfältige Frage-Antwort-Paare aus 42 Ländern und 39 Sprachen. Jede Stichprobe enthält ein Bild, eine Frage und eine Antwort, sortiert nach Land und Sprache, um die Modellvorhersagen direkt mit kulturellen Einheiten abzugleichen.

Die Daten umfassen:

  • Bild- und Entitätsmetadaten (Land/Sprache/Entitäts-ID/kulturelle Attribute)
  • Beispiele für visuelle Fragen und Antworten: Offene Fragen und Multiple-Choice-/Richtig/Falsch-Fragen, sowohl in ungefilterter als auch in gefilterter Version
  • Mehrsprachiger Text: Fragen und Antworten in 39 Sprachen, die sprachübergreifendes Training und Evaluation unterstützen
Dataset-Beispiel

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp