HyperAIHyperAI

Command Palette

Search for a command to run...

Ensemble De Données De Questions-réponses Visuelles Culturelles Multilingues CulturalGround

Date

il y a 3 mois

Organisation

Université Carnegie Mellon

URL de l'article

2508.07414

Licence

Apache 2.0

Rejoignez la communauté Discord

CulturalGround est un ensemble de données de réponses visuelles multilingues et multimodales pour l'alignement des connaissances culturelles publié par NeuLab à l'Université Carnegie Mellon en 2025. « Fonder les LLM multilingues et multimodaux sur la connaissance culturelle », qui vise à améliorer les capacités de compréhension et de raisonnement du modèle multimodal de langage à grande échelle des entités culturelles de niche et des langues à faibles ressources.

L'ensemble de données contient 22 millions de paires de questions-réponses de haute qualité et culturellement riches, couvrant 42 pays et 39 langues. Chaque échantillon comprend une image, une question et une réponse, organisées par pays et par langue afin d'aligner directement les prédictions du modèle sur les entités culturelles.

Les données comprennent :

  • Métadonnées d'image et d'entité (pays/langue/identifiant d'entité/attributs culturels)
  • Exemples de questions-réponses visuelles : questions ouvertes et questions à choix multiples/vrai/faux, avec versions filtrées et non filtrées
  • Texte multilingue : questions et réponses en 39 langues, favorisant la formation et l'évaluation interlinguistiques
Exemple d'ensemble de données

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp