il y a 11 jours

K-Adapter : Intégration de connaissances dans des modèles pré-entraînés à l’aide d’adapteurs

Ruize Wang, Duyu Tang, Nan Duan, Zhongyu Wei, Xuanjing Huang, Jianshu ji, Guihong Cao, Daxin Jiang, Ming Zhou

Résumé

Nous étudions le problème d’incorporer des connaissances dans des modèles pré-entraînés de grande taille tels que BERT et RoBERTa. Les méthodes existantes mettent généralement à jour les paramètres originaux du modèle pré-entraîné lors de l’incorporation de connaissances. Toutefois, lorsqu’il s’agit d’injecter plusieurs types de connaissances, les connaissances précédemment intégrées risquent d’être écrasées. Pour résoudre ce problème, nous proposons K-Adapter, un cadre qui maintient les paramètres initiaux du modèle pré-entraîné fixes et permet le développement de modèles polyvalents enrichis de connaissances. En prenant RoBERTa comme modèle principal, K-Adapter intègre un adaptateur neuronal pour chaque type de connaissance injectée, fonctionnant comme un composant plug-in connecté à RoBERTa. Aucun flux d’information ne s’établit entre les différents adaptateurs, permettant ainsi une entraînement efficace et distribué de plusieurs adaptateurs simultanément. Dans une étude de cas, nous injectons deux types de connaissances : (1) des connaissances factuelles extraites à partir de triplets texte-alignés automatiquement sur Wikipedia et Wikidata, et (2) des connaissances linguistiques obtenues via une analyse syntaxique (dependency parsing). Les résultats obtenus sur trois tâches pilotées par la connaissance — classification de relations, typage d’entités et réponse à des questions — montrent que chaque adaptateur améliore les performances, et que la combinaison des deux adaptateurs entraîne une amélioration supplémentaire. Une analyse approfondie indique que K-Adapter capture une connaissance plus polyvalente que RoBERTa.