HyperAIHyperAI
il y a 11 jours

Réexamen de la simplification de texte non anglais : une base unifiée multilingue

Michael J. Ryan, Tarek Naous, Wei Xu
Réexamen de la simplification de texte non anglais : une base unifiée multilingue
Résumé

Les avancées récentes dans les ressources anglaises de haute qualité et à grande échelle ont poussé les limites de la recherche en simplification automatique de texte anglais (ATS). Toutefois, peu de travaux ont été menés sur la simplification multilingue en raison du manque d’un cadre d’évaluation diversifié couvrant des paires de phrases complexes-simples dans de nombreuses langues. Ce papier présente le benchmark MultiSim, une collection de 27 ressources réparties dans 12 langues distinctes, comprenant plus de 1,7 million de paires de phrases complexes-simples. Ce benchmark encouragera la recherche visant à développer des modèles de simplification de texte multilingue plus efficaces ainsi que de nouveaux métriques d’évaluation. Nos expériences menées avec MultiSim à l’aide de modèles pré-entraînés multilingues révèlent des améliorations de performance prometteuses issues de l’entraînement multilingue dans des contextes non anglais. Nous observons une performance remarquable du russe dans le transfert cross-lingual zéro-shot vers des langues à faibles ressources. Nous montrons également que l’utilisation d’un peu d’instructions (few-shot prompting) avec BLOOM-176b permet d’atteindre une qualité comparable aux simplifications de référence, surpassant les modèles ajustés (fine-tuned) dans la plupart des langues. Ces résultats sont validés par une évaluation humaine.

Réexamen de la simplification de texte non anglais : une base unifiée multilingue | Articles de recherche récents | HyperAI