HyperAIHyperAI

Command Palette

Search for a command to run...

Attente auto-adversaire pour la compréhension du langage

Hongqiu Wu Ruixue Ding Hai Zhao Pengjun Xie Fei Huang Min Zhang

Résumé

Les modèles neuronaux profonds (par exemple, les Transformers) apprennent naturellement des caractéristiques artificielles, créant ainsi un « raccourci » entre les étiquettes et les entrées, ce qui nuit à la généralisation et à la robustesse. Ce papier améliore le mécanisme d’attention auto-référentielle afin d’en faire une variante robuste adaptée aux modèles pré-entraînés basés sur les Transformers (par exemple, BERT). Nous proposons un mécanisme d’attention auto-référentielle adversarielle (ASA), qui biaise de manière adversarielle les attentions afin de supprimer efficacement la dépendance du modèle vis-à-vis de certaines caractéristiques spécifiques (par exemple, des mots-clés particuliers) et de favoriser son exploration de sémantiques plus larges. Nous menons une évaluation approfondie sur une large gamme de tâches, tant au stade de pré-entraînement que de fine-tuning. Pendant le pré-entraînement, ASA permet d’obtenir des gains de performance remarquables par rapport à un entraînement naïf, notamment sur des étapes plus longues. Pendant le fine-tuning, les modèles dotés d’ASA surpassent largement les modèles naïfs en termes à la fois de généralisation et de robustesse.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp