HyperAIHyperAI
il y a 9 jours

TAPE : Évaluation de la compréhension de la langue russe en peu d'exemples

Ekaterina Taktasheva, Tatiana Shavrina, Alena Fenogenova, Denis Shevelev, Nadezhda Katricheva, Maria Tikhonova, Albina Akhmetgareeva, Oleg Zinkevich, Anastasiia Bashmakova, Svetlana Iordanskaia, Alena Spiridonova, Valentina Kurenshchikova, Ekaterina Artemova, Vladislav Mikhailov
TAPE : Évaluation de la compréhension de la langue russe en peu d'exemples
Résumé

Les avancées récentes dans les domaines de l’apprentissage zéro-shot et peu-shot ont montré un grand potentiel pour diverses applications scientifiques et pratiques. Toutefois, ce domaine en plein essor souffre d’un manque de suites d’évaluation standardisées pour les langues autres que l’anglais, ce qui freine le progrès en dehors du paradigme anglo-centré. Afin de répondre à cette problématique, nous proposons TAPE (Text Attack and Perturbation Evaluation), un nouveau benchmark comprenant six tâches plus complexes de compréhension linguistique naturelle (NLU) en russe, couvrant des raisonnements à plusieurs étapes, des concepts éthiques, ainsi que des connaissances logiques et du bon sens. La conception de TAPE se concentre sur une évaluation systématique de la NLU en zéro-shot et peu-shot : (i) des attaques adverses et perturbations orientées linguistiques pour analyser la robustesse, et (ii) des sous-populations permettant une interprétation fine. L’analyse détaillée des résultats obtenus avec des modèles autoregressifs révèle que les perturbations basées sur des erreurs orthographiques affectent le plus la performance, tandis que la reformulation de l’entrée a un effet nettement moindre. Parallèlement, les résultats mettent en évidence un écart significatif entre les performances des modèles neuronaux et celles des humains sur la plupart des tâches. Nous mettons publiquement TAPE à disposition (tape-benchmark.com) afin de stimuler la recherche sur des modèles linguistiques robustes capables de généraliser à de nouvelles tâches en l’absence ou à très faible supervision.