HyperAIHyperAI

Command Palette

Search for a command to run...

RAFT : Un benchmark réaliste de classification de texte à faible exemple

Résumé

Les grands modèles linguistiques pré-entraînés ont montré un réel potentiel pour l’apprentissage par peu d’exemples, en permettant de réaliser des tâches textuelles à partir de très peu d’exemples spécifiques à la tâche. Les modèles vont-ils bientôt résoudre des tâches de classification jusque-là réservées aux assistants de recherche humains ? Les évaluations existantes ne sont pas conçues pour mesurer les progrès dans des contextes applicatifs réels, et ne répondent donc pas directement à cette question. Le benchmark RAFT (Real-world Annotated Few-shot Tasks) se concentre sur des tâches naturellement rencontrées et utilise un cadre d’évaluation qui reflète fidèlement un déploiement réel. Les évaluations baselines sur RAFT révèlent des domaines où les techniques actuelles peinent : le raisonnement sur des textes longs et les tâches comportant un grand nombre de classes. Les résultats obtenus par des humains non spécialisés montrent que certaines tâches de classification sont difficiles même pour des personnes non expertes, ce qui indique que la valeur réelle dans le monde réel dépend parfois fortement d’un savoir-faire spécifique au domaine. Pourtant, les scores F1 moyens des humains non spécialisés dépassent ceux de GPT-3 d’une moyenne de 0,11. Les jeux de données RAFT et le classement associé permettront de suivre les progrès des modèles qui se traduisent effectivement par des bénéfices dans des contextes réels à l’adresse suivante : https://raft.elicit.org.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp