HyperAIHyperAI
il y a 13 jours

XCOPA : Un jeu de données multilingue pour le raisonnement courant du sens causal

Edoardo Maria Ponti, Goran Glavaš, Olga Majewska, Qianchu Liu, Ivan Vulić, Anna Korhonen
XCOPA : Un jeu de données multilingue pour le raisonnement courant du sens causal
Résumé

Afin de simuler la capacité linguistique humaine, les systèmes de traitement du langage naturel doivent être capables de raisonner sur la dynamique des situations quotidiennes, y compris leurs causes et effets possibles. En outre, ils doivent pouvoir généraliser les connaissances acquises sur le monde à de nouvelles langues, en tenant compte des différences culturelles. Les progrès réalisés en matière de raisonnement automatique et de transfert multilingue dépendent de la disponibilité de benchmarks d’évaluation exigeants. Motivés par ces deux enjeux, nous introduisons XCOPA (Cross-lingual Choice of Plausible Alternatives), un ensemble de données multilingue typologiquement diversifié pour le raisonnement communautaire causale dans 11 langues, incluant des langues à faibles ressources telles que le quechua d’Apurímac oriental et le créole haïtien. Nous évaluons une série de modèles de pointe sur cet ensemble de données novateur, révélant que les performances des méthodes actuelles fondées sur le pré-entraînement multilingue et le fine-tuning zéro-shot sont inférieures à celles obtenues par transfert basé sur la traduction. Enfin, nous proposons des stratégies pour adapter les modèles multilingues à des langues hors échantillon à faibles ressources, où seule une petite corpos ou un dictionnaire bilingue est disponible, et rapportons des améliorations significatives par rapport à la borne aléatoire. L’ensemble de données XCOPA est librement disponible à l’adresse github.com/cambridgeltl/xcopa.

XCOPA : Un jeu de données multilingue pour le raisonnement courant du sens causal | Articles de recherche récents | HyperAI