Command Palette
Search for a command to run...
Ensemble De Données De Questions-réponses Visuelles Culturelles Multilingues CulturalGround
Date
URL de l'article
Licence
Apache 2.0
CulturalGround est un ensemble de données de réponses visuelles multilingues et multimodales pour l'alignement des connaissances culturelles publié par NeuLab à l'Université Carnegie Mellon en 2025. « Fonder les LLM multilingues et multimodaux sur la connaissance culturelle », qui vise à améliorer les capacités de compréhension et de raisonnement du modèle multimodal de langage à grande échelle des entités culturelles de niche et des langues à faibles ressources.
L'ensemble de données contient 22 millions de paires de questions-réponses de haute qualité et culturellement riches, couvrant 42 pays et 39 langues. Chaque échantillon comprend une image, une question et une réponse, organisées par pays et par langue afin d'aligner directement les prédictions du modèle sur les entités culturelles.
Les données comprennent :
- Métadonnées d'image et d'entité (pays/langue/identifiant d'entité/attributs culturels)
- Exemples de questions-réponses visuelles : questions ouvertes et questions à choix multiples/vrai/faux, avec versions filtrées et non filtrées
- Texte multilingue : questions et réponses en 39 langues, favorisant la formation et l'évaluation interlinguistiques

Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.