TANDA : Transfert et adaptation de modèles Transformer pré-entraînés pour la sélection de phrases réponse

Nous proposons TANDA, une technique efficace pour le fine-tuning des modèles Transformer pré-entraînés dans le cadre de tâches de traitement du langage naturel. Plus précisément, nous transférons d'abord un modèle pré-entraîné vers un modèle général en le fine-tunant sur un grand jeu de données de haute qualité. Nous effectuons ensuite une deuxième étape de fine-tuning afin d’adapter ce modèle transféré au domaine cible. Nous démontrons les avantages de notre approche sur la sélection de phrases réponse, une tâche classique d’inférence dans le domaine de la question-réponse. Pour permettre l’étape de transfert, nous avons construit un grand jeu de données en exploitant le jeu de données Natural Questions. Notre méthode établit l’état de l’art sur deux benchmarks bien connus, WikiQA et TREC-QA, atteignant des scores MAP de 92 % et 94,3 % respectivement, ce qui dépasse largement les meilleurs scores précédents de 83,4 % et 87,5 %, obtenus dans des travaux très récents. Nous montrons empiriquement que TANDA produit des modèles plus stables et robustes, réduisant ainsi l’effort nécessaire pour sélectionner les hyperparamètres optimaux. En outre, nous démontrons que l’étape de transfert de TANDA rend l’étape d’adaptation plus robuste au bruit, permettant une utilisation plus efficace de jeux de données bruités pour le fine-tuning. Enfin, nous confirmons également l’impact positif de TANDA dans un contexte industriel, en utilisant des jeux de données spécifiques au domaine soumis à divers types de bruit.