HyperAIHyperAI

Command Palette

Search for a command to run...

TaskSource : Un Cadre d'Harmonisation de Jeux de Données pour l'Apprentissage et l'Évaluation Multitâches en TALN Simplifiés

Damien Sileo

Résumé

Le HuggingFace Datasets Hub héberge des milliers de jeux de données, offrant des opportunités passionnantes pour l'entraînement et l'évaluation des modèles linguistiques. Cependant, les jeux de données destinés à une tâche spécifique présentent souvent des schémas différents, ce qui rend la harmonisation complexe. L'entraînement ou l'évaluation multi-tâches nécessite un travail manuel pour adapter les données aux modèles de tâches. Plusieurs initiatives abordent ce problème de manière indépendante en publiant des jeux de données harmonisés ou en fournissant des codes d'harmonisation pour prétraiter les jeux de données dans un format cohérent. Nous identifions des motifs récurrents dans les efforts précédents de prétraitement, tels que le mappage des noms de colonnes et l'extraction de sous-champs spécifiques à partir de données structurées dans une colonne. Nous proposons ensuite un cadre d'annotation structurée qui garantit que nos annotations soient entièrement visibles et non cachées au sein d'un code non structuré. Nous publions un cadre d'annotation de jeu de données et des annotations de jeux de données pour plus de 500 tâches en anglais\footnote{\url{https://github.com/sileod/tasksource}}. Ces annotations incluent des métadonnées, telles que les noms des colonnes à utiliser comme entrées ou étiquettes pour tous les jeux de données, ce qui peut économiser du temps pour le prétraitement futur, quels que soient les cadres utilisés. Nous affinons un encodeur texte multi-tâches sur toutes les tâches TaskSource, surpassant chaque encodeur texte public disponible et comparable en taille lors d'une évaluation externe.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
TaskSource : Un Cadre d'Harmonisation de Jeux de Données pour l'Apprentissage et l'Évaluation Multitâches en TALN Simplifiés | Articles | HyperAI