Objectifs d'auto-entraînement structuraux pour les Transformers

Cette thèse se concentre sur l'amélioration de la pré-formation des modèles de traitement du langage naturel à l’aide de données brutes non étiquetées, afin de renforcer leur efficacité et leur alignement avec les applications spécifiques en aval.Dans la première partie, nous proposons trois objectifs alternatifs à la modélisation du langage masqué (MLM) de BERT : la substitution aléatoire de tokens (RTS), la substitution aléatoire de tokens basée sur des clusters (C-RTS) et la modélisation du langage échangé (SLM). Ces approches reposent sur l’échange de tokens au lieu du masquage, où RTS et C-RTS visent à prédire l’originalité des tokens, tandis que SLM vise à retrouver les valeurs initiales des tokens. Les résultats montrent que RTS et C-RTS nécessitent moins de temps de pré-formation tout en maintenant des performances comparables à celles de MLM. De manière surprenante, SLM dépasse même MLM sur certaines tâches, malgré un budget computationnel identique.Dans la deuxième partie, nous proposons des tâches de pré-formation auto-supervisées dont la structure est conçue pour s’aligner étroitement avec les applications en aval, réduisant ainsi la dépendance aux données étiquetées. En exploitant de grands corpus tels que Wikipedia et CC-News, nous entraînons les modèles à reconnaître si des segments de texte proviennent du même paragraphe ou du même document, selon plusieurs approches. En poursuivant la pré-formation de manière continue à partir de modèles existants tels que RoBERTa, ELECTRA, DeBERTa, BART et T5, nous démontrons des améliorations significatives sur des tâches comme la vérification de faits, la sélection de phrases réponse et la synthèse de texte. Ces gains sont particulièrement marqués lorsque les données annotées sont limitées. Les objectifs proposés atteignent également des résultats de pointe sur diverses bases de données de référence, notamment FEVER (ensemble de validation), ASNQ, WikiQA et TREC-QA, tout en améliorant la qualité des résumés. De manière cruciale, ces techniques peuvent être facilement intégrées à d’autres méthodes sans modifier la structure interne des modèles Transformer, ce qui en fait des outils polyvalents pour diverses applications du traitement du langage naturel.