HyperAIHyperAI
il y a 15 jours

HTLM : Pré-entraînement Hyper-Textuel et Initialisation de Modèles de Langage

Armen Aghajanyan, Dmytro Okhonko, Mike Lewis, Mandar Joshi, Hu Xu, Gargi Ghosh, Luke Zettlemoyer
HTLM : Pré-entraînement Hyper-Textuel et Initialisation de Modèles de Langage
Résumé

Nous introduisons HTLM, un modèle de langage hyper-texte entraîné sur un grand volume de données collectées à partir d’un web crawl. La modélisation du contenu hyper-texte présente plusieurs avantages : (1) elle peut être collectée à grande échelle de manière aisée, (2) elle fournit une supervision riche au niveau du document et proche des tâches finales (par exemple, les attributs « class » et « id » encodent souvent des informations sur la catégorie du document), et (3) elle permet de nouvelles méthodes d’instruction structurées qui respectent les sémantiques établies du HTML (par exemple, effectuer une synthèse zéro-shot en complétant les balises « title » d’une page web contenant le texte d’entrée). Nous montrons que l’entraînement préalable avec une perte de débruitage de type BART directement sur du HTML simplifié conduit à une transférabilité très efficace pour une large gamme de tâches finales et de niveaux de supervision. HTLM atteint ou dépasse les performances des modèles de langage uniquement textuels de taille comparable pour les tâches de classification en mode zéro-shot et en fine-tuning, tout en établissant de nouveaux records d’état de l’art pour la synthèse zéro-shot. Nous constatons également que les instructions basées sur le contenu hyper-texte apportent davantage de valeur à HTLM en termes d’efficacité des données que les instructions textuelles simples pour les modèles existants, et que HTLM est particulièrement efficace pour s’auto-instruire, en générant simplement la mise en forme hyper-texte la plus probable à partir de tout jeu de données d’entraînement disponible. Nous rendrons disponible l’intégralité du code et des modèles afin de soutenir les recherches futures sur HTLM.