HyperAIHyperAI
il y a 2 mois

TaskSource : Un Cadre d'Harmonisation de Jeux de Données pour l'Apprentissage et l'Évaluation Multitâches en TALN Simplifiés

Damien Sileo
TaskSource : Un Cadre d'Harmonisation de Jeux de Données pour l'Apprentissage et l'Évaluation Multitâches en TALN Simplifiés
Résumé

Le HuggingFace Datasets Hub héberge des milliers de jeux de données, offrant des opportunités passionnantes pour l'entraînement et l'évaluation des modèles linguistiques. Cependant, les jeux de données destinés à une tâche spécifique présentent souvent des schémas différents, ce qui rend la harmonisation complexe. L'entraînement ou l'évaluation multi-tâches nécessite un travail manuel pour adapter les données aux modèles de tâches. Plusieurs initiatives abordent ce problème de manière indépendante en publiant des jeux de données harmonisés ou en fournissant des codes d'harmonisation pour prétraiter les jeux de données dans un format cohérent. Nous identifions des motifs récurrents dans les efforts précédents de prétraitement, tels que le mappage des noms de colonnes et l'extraction de sous-champs spécifiques à partir de données structurées dans une colonne. Nous proposons ensuite un cadre d'annotation structurée qui garantit que nos annotations soient entièrement visibles et non cachées au sein d'un code non structuré. Nous publions un cadre d'annotation de jeu de données et des annotations de jeux de données pour plus de 500 tâches en anglais\footnote{\url{https://github.com/sileod/tasksource}}. Ces annotations incluent des métadonnées, telles que les noms des colonnes à utiliser comme entrées ou étiquettes pour tous les jeux de données, ce qui peut économiser du temps pour le prétraitement futur, quels que soient les cadres utilisés. Nous affinons un encodeur texte multi-tâches sur toutes les tâches TaskSource, surpassant chaque encodeur texte public disponible et comparable en taille lors d'une évaluation externe.

TaskSource : Un Cadre d'Harmonisation de Jeux de Données pour l'Apprentissage et l'Évaluation Multitâches en TALN Simplifiés | Articles de recherche récents | HyperAI