HyperAIHyperAI
il y a 15 jours

Génération de jeux de données à l’aide de modèles linguistiques préentraînés

Timo Schick, Hinrich Schütze
Génération de jeux de données à l’aide de modèles linguistiques préentraînés
Résumé

Pour obtenir des embeddings de phrases de haute qualité à partir de modèles linguistiques préentraînés (PLM), ceux-ci doivent soit être enrichis par des objectifs supplémentaires d'entraînement préalable, soit être finement ajustés sur de grandes collections de paires de textes étiquetées. Bien que cette dernière approche dépasse généralement la première, elle exige un effort humain considérable pour produire des jeux de données adaptés et suffisamment volumineux. Dans cet article, nous montrons comment les PLM peuvent être exploités pour obtenir des embeddings de phrases de haute qualité sans nécessiter de données étiquetées, de finetuning ni de modification de l'objectif d'entraînement préalable : nous utilisons les capacités génératives des grands PLM performants afin de générer à partir de zéro des jeux de données entiers de paires de textes étiquetées, que nous utilisons ensuite pour finement ajuster des modèles bien plus petits et plus efficaces. Notre approche entièrement non supervisée surpasse les modèles de référence sur plusieurs jeux de données de similarité sémantique entre textes.

Génération de jeux de données à l’aide de modèles linguistiques préentraînés | Articles de recherche récents | HyperAI