Jugements d'acceptabilité par l'analyse de la topologie des cartes d'attention

Le rôle du mécanisme d’attention dans l’encodage des connaissances linguistiques a suscité un intérêt particulier en traitement automatique du langage (NLP). Toutefois, la capacité des têtes d’attention à évaluer la grammaticalité d’une phrase reste largement sous-exploree. Ce papier aborde le paradigme des jugements de grammaticalité à l’aide de l’analyse topologique des données (TDA), démontrant que les propriétés géométriques du graphe d’attention peuvent être efficacement exploitées pour deux pratiques standard en linguistique : les jugements binaires et les paires minimales linguistiques. Les caractéristiques topologiques améliorent les performances d’un classificateur de grammaticalité basé sur BERT de 8 à 24 % sur le corpus CoLA, sur trois langues (anglais, italien et suédois). En mettant en évidence les écarts topologiques entre les cartes d’attention des paires minimales, nous atteignons un niveau de performance équivalent à celui de l’humain sur le benchmark BLiMP, surpassant neuf modèles statistiques et basés sur Transformer. Par ailleurs, la TDA fournit une base solide pour analyser les fonctions linguistiques des têtes d’attention et interpréter la correspondance entre les caractéristiques du graphe et les phénomènes grammaticaux.