il y a 17 jours

RAFT : Un benchmark réaliste de classification de texte à faible exemple

Neel Alex, Eli Lifland, Lewis Tunstall, Abhishek Thakur, Pegah Maham, C. Jess Riedel, Emmie Hine, Carolyn Ashurst, Paul Sedille, Alexis Carlier, Michael Noetel, Andreas Stuhlmüller

Voir les détails de l'article

RAFT : Un benchmark réaliste de classification de texte à faible exemple

Résumé

Les grands modèles linguistiques pré-entraînés ont montré un réel potentiel pour l’apprentissage par peu d’exemples, en permettant de réaliser des tâches textuelles à partir de très peu d’exemples spécifiques à la tâche. Les modèles vont-ils bientôt résoudre des tâches de classification jusque-là réservées aux assistants de recherche humains ? Les évaluations existantes ne sont pas conçues pour mesurer les progrès dans des contextes applicatifs réels, et ne répondent donc pas directement à cette question. Le benchmark RAFT (Real-world Annotated Few-shot Tasks) se concentre sur des tâches naturellement rencontrées et utilise un cadre d’évaluation qui reflète fidèlement un déploiement réel. Les évaluations baselines sur RAFT révèlent des domaines où les techniques actuelles peinent : le raisonnement sur des textes longs et les tâches comportant un grand nombre de classes. Les résultats obtenus par des humains non spécialisés montrent que certaines tâches de classification sont difficiles même pour des personnes non expertes, ce qui indique que la valeur réelle dans le monde réel dépend parfois fortement d’un savoir-faire spécifique au domaine. Pourtant, les scores F1 moyens des humains non spécialisés dépassent ceux de GPT-3 d’une moyenne de 0,11. Les jeux de données RAFT et le classement associé permettront de suivre les progrès des modèles qui se traduisent effectivement par des bénéfices dans des contextes réels à l’adresse suivante : https://raft.elicit.org.