JamPatoisNLI : Un jeu de données pour la compréhension linguistique naturelle en patois jamaïcain

JamPatoisNLI propose le premier jeu de données dédié au raisonnement sémantique à partir du langage naturel dans une langue créole, le jamaïcain Patois. De nombreuses des langues à faible ressource les plus parlées sont des créoles. Ces langues tirent généralement leur lexique d'une langue mondiale majeure, tout en présentant une grammaire distinctive qui reflète les langues des locuteurs originels ainsi que le processus de naissance linguistique propre à la créolisation. Cela leur confère une place particulière dans l’étude de l’efficacité du transfert d’apprentissage à partir de modèles pré-entraînés monolingues ou multilingues de grande taille. Bien que notre travail, ainsi que des travaux antérieurs, montrent que le transfert de ces modèles vers des langues à faible ressource non apparentées aux langues présentes dans leur ensemble d’entraînement s’avère peu efficace, nous anticipons des résultats plus prometteurs lorsqu’il s’agit de créoles. En effet, nos expériences révèlent des performances nettement supérieures pour l’apprentissage à faible exemplaire sur JamPatoisNLI par rapport à ces langues non apparentées, et contribuent à mieux comprendre comment la relation unique entre les créoles et leurs langues de base à ressources abondantes influence le transfert interlingue. JamPatoisNLI, composé de prémices naturelles et d’hypothèses rédigées par des experts, constitue une étape importante vers une recherche centrée sur une langue traditionnellement sous-représentée, tout en offrant une référence utile pour l’étude du traitement automatique du langage naturel interlingue.