HyperAIHyperAI
il y a 17 jours

InfoBERT : Amélioration de la robustesse des modèles linguistiques à partir d'une perspective théorique de l'information

Boxin Wang, Shuohang Wang, Yu Cheng, Zhe Gan, Ruoxi Jia, Bo Li, Jingjing Liu
InfoBERT : Amélioration de la robustesse des modèles linguistiques à partir d'une perspective théorique de l'information
Résumé

Les modèles de langage à grande échelle tels que BERT ont atteint des performances de pointe sur une vaste gamme de tâches de traitement du langage naturel (NLP). Cependant, des études récentes montrent que ces modèles fondés sur BERT sont vulnérables aux attaques adverses textuelles. Nous abordons ce problème sous l’angle de la théorie de l’information et proposons InfoBERT, un cadre d’apprentissage novateur pour le fine-tuning robuste des modèles pré-entraînés. InfoBERT intègre deux régularisateurs fondés sur l’information mutuelle pour l’entraînement du modèle : (i) un régularisateur de bottleneck d’information, qui supprime l’information mutuelle bruitée entre l’entrée et la représentation de caractéristiques ; et (ii) un régularisateur de caractéristiques robustes, qui renforce l’information mutuelle entre les caractéristiques locales robustes et les caractéristiques globales. Nous fournissons une approche fondée sur des principes théoriques pour analyser et améliorer de manière rigoureuse la robustesse de l’apprentissage de représentations dans les modèles de langage, tant en apprentissage standard qu’en apprentissage adversarial. Des expériences étendues montrent qu’InfoBERT atteint une précision robuste de pointe sur plusieurs jeux de données adverses dans les tâches d’inférence sur le langage naturel (NLI) et de réponse aux questions (QA). Notre code est disponible à l’adresse suivante : https://github.com/AI-secure/InfoBERT.