HyperAIHyperAI

Command Palette

Search for a command to run...

CulturalGround – Mehrsprachiger Datensatz Für Visuelle Fragen Und Antworten

Discuss on Discord

Date

vor 4 Monaten

Organization

Carnegie Mellon Universität

Paper URL

2508.07414

License

Apache 2.0

CulturalGround ist ein mehrsprachiger und multimodaler visueller Frage-Antwort-Datensatz zur kulturellen Wissensausrichtung, der 2025 von NeuLab an der Carnegie Mellon University veröffentlicht wurde. „Kulturelles Wissen für mehrsprachige und multimodale LLMs“, dessen Ziel es ist, das Verständnis und die Argumentationsfähigkeiten des multimodalen Großsprachenmodells in Bezug auf kulturelle Nischeneinheiten und ressourcenarme Sprachen zu verbessern.

Der Datensatz enthält 22 Millionen hochwertige, kulturell vielfältige Frage-Antwort-Paare aus 42 Ländern und 39 Sprachen. Jede Stichprobe enthält ein Bild, eine Frage und eine Antwort, sortiert nach Land und Sprache, um die Modellvorhersagen direkt mit kulturellen Einheiten abzugleichen.

Die Daten umfassen:

  • Bild- und Entitätsmetadaten (Land/Sprache/Entitäts-ID/kulturelle Attribute)
  • Beispiele für visuelle Fragen und Antworten: Offene Fragen und Multiple-Choice-/Richtig/Falsch-Fragen, sowohl in ungefilterter als auch in gefilterter Version
  • Mehrsprachiger Text: Fragen und Antworten in 39 Sprachen, die sprachübergreifendes Training und Evaluation unterstützen
Dataset-Beispiel

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
CulturalGround – Mehrsprachiger Datensatz Für Visuelle Fragen Und Antworten | Datasets | HyperAI