HyperAIHyperAI

Command Palette

Search for a command to run...

TAPE : Évaluation de la compréhension de la langue russe en peu d'exemples

Résumé

Les avancées récentes dans les domaines de l’apprentissage zéro-shot et peu-shot ont montré un grand potentiel pour diverses applications scientifiques et pratiques. Toutefois, ce domaine en plein essor souffre d’un manque de suites d’évaluation standardisées pour les langues autres que l’anglais, ce qui freine le progrès en dehors du paradigme anglo-centré. Afin de répondre à cette problématique, nous proposons TAPE (Text Attack and Perturbation Evaluation), un nouveau benchmark comprenant six tâches plus complexes de compréhension linguistique naturelle (NLU) en russe, couvrant des raisonnements à plusieurs étapes, des concepts éthiques, ainsi que des connaissances logiques et du bon sens. La conception de TAPE se concentre sur une évaluation systématique de la NLU en zéro-shot et peu-shot : (i) des attaques adverses et perturbations orientées linguistiques pour analyser la robustesse, et (ii) des sous-populations permettant une interprétation fine. L’analyse détaillée des résultats obtenus avec des modèles autoregressifs révèle que les perturbations basées sur des erreurs orthographiques affectent le plus la performance, tandis que la reformulation de l’entrée a un effet nettement moindre. Parallèlement, les résultats mettent en évidence un écart significatif entre les performances des modèles neuronaux et celles des humains sur la plupart des tâches. Nous mettons publiquement TAPE à disposition (tape-benchmark.com) afin de stimuler la recherche sur des modèles linguistiques robustes capables de généraliser à de nouvelles tâches en l’absence ou à très faible supervision.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp