Ce n’est pas un jeu de données : un grand benchmark de négation pour défier les grands modèles linguistiques

Bien que les grands modèles linguistiques (LLM) aient apparemment acquis un certain niveau de connaissance grammaticale et la capacité à généraliser, ils échouent à interpréter la négation, une étape cruciale en traitement automatique du langage naturel. Nous cherchons à clarifier les raisons de leurs performances sous-optimales dans la compréhension de la négation. Nous introduisons un grand jeu de données semi-automatiquement généré, comprenant environ 400 000 phrases descriptives sur des connaissances du sens commun, pouvant être vraies ou fausses, dans lesquelles la négation est présente dans environ les deux tiers du corpus, sous différentes formes. Nous avons utilisé ce jeu de données avec les plus grands modèles linguistiques ouverts disponibles, dans une approche zero-shot, afin d’évaluer leurs capacités de généralisation et d’inférence. Nous avons également finement ajusté certains modèles pour déterminer si la compréhension de la négation peut être apprise. Nos résultats montrent que, bien que les LLM soient compétents dans la classification des phrases affirmatives, ils peinent face aux phrases négatives et manquent d’une compréhension profonde de la négation, s’appuyant souvent sur des indices superficiels. Bien que le fine-tuning sur des phrases négatives améliore leurs performances, le défaut de généralisation dans la gestion de la négation persiste, soulignant les défis encore présents dans la compréhension et la généralisation de la négation par les LLM. Le jeu de données et le code sont disponibles publiquement.