HyperAIHyperAI
il y a 15 jours

Attente auto-adversaire pour la compréhension du langage

Hongqiu Wu, Ruixue Ding, Hai Zhao, Pengjun Xie, Fei Huang, Min Zhang
Attente auto-adversaire pour la compréhension du langage
Résumé

Les modèles neuronaux profonds (par exemple, les Transformers) apprennent naturellement des caractéristiques artificielles, créant ainsi un « raccourci » entre les étiquettes et les entrées, ce qui nuit à la généralisation et à la robustesse. Ce papier améliore le mécanisme d’attention auto-référentielle afin d’en faire une variante robuste adaptée aux modèles pré-entraînés basés sur les Transformers (par exemple, BERT). Nous proposons un mécanisme d’attention auto-référentielle adversarielle (ASA), qui biaise de manière adversarielle les attentions afin de supprimer efficacement la dépendance du modèle vis-à-vis de certaines caractéristiques spécifiques (par exemple, des mots-clés particuliers) et de favoriser son exploration de sémantiques plus larges. Nous menons une évaluation approfondie sur une large gamme de tâches, tant au stade de pré-entraînement que de fine-tuning. Pendant le pré-entraînement, ASA permet d’obtenir des gains de performance remarquables par rapport à un entraînement naïf, notamment sur des étapes plus longues. Pendant le fine-tuning, les modèles dotés d’ASA surpassent largement les modèles naïfs en termes à la fois de généralisation et de robustesse.

Attente auto-adversaire pour la compréhension du langage | Articles de recherche récents | HyperAI