ERNIE : Représentation Améliorée par l'Intégration des Connaissances

Nous présentons un nouveau modèle de représentation linguistique amélioré par des connaissances, appelé ERNIE (Enhanced Representation through kNowledge IntEgration). Inspiré par la stratégie de masquage de BERT, ERNIE est conçu pour apprendre une représentation linguistique enrichie par des stratégies de masquage basées sur les connaissances, qui incluent le masquage au niveau des entités et le masquage au niveau des phrases. La stratégie au niveau des entités consiste à masquer les entités qui sont généralement composées de plusieurs mots. La stratégie au niveau des phrases consiste à masquer l'ensemble d'une phrase qui est formée de plusieurs mots agissant ensemble comme une unité conceptuelle. Les résultats expérimentaux montrent que ERNIE surpasse les autres méthodes de référence, obtenant de nouveaux résultats d'état de l'art sur cinq tâches de traitement du langage naturel chinois, notamment l'inférence en langage naturel, la similarité sémantique, la reconnaissance d'entités nommées, l'analyse de sentiments et la réponse aux questions. Nous démontrons également que ERNIE possède une capacité d'inférence des connaissances plus puissante lors d'un test de complétion (cloze test).