ERNIE: Erweiterte Sprachrepräsentation durch informative Entitäten

Neuronale Sprachrepräsentationsmodelle wie BERT, die auf großen Korpora vortrainiert wurden, können reichhaltige semantische Muster aus unstrukturiertem Text gut erfassen und für die Verbesserung der Leistung verschiedener NLP-Aufgaben feinjustiert werden. Allerdings berücksichtigen die bestehenden vortrainierten Sprachmodelle selten die Einbindung von Wissensgraphen (KGs), die reichhaltige strukturierte Wissensfakten für ein besseres Sprachverständnis bereitstellen können. Wir argumentieren, dass informative Entitäten in Wissensgraphen die Sprachrepräsentation durch externe Wissen erweitern können. In dieser Arbeit nutzen wir sowohl große textuelle Korpora als auch Wissensgraphen, um ein erweitertes Sprachrepräsentationsmodell (ERNIE) zu trainieren, das gleichzeitig lexikalische, syntaktische und wissensbasierte Informationen optimal ausnutzt. Die experimentellen Ergebnisse zeigen, dass ERNIE bei verschiedenen wissensbasierten Aufgaben erhebliche Verbesserungen erreicht und gleichzeitig mit dem aktuellen Top-Modell BERT bei anderen gängigen NLP-Aufgaben vergleichbar ist. Der Quellcode dieses Artikels kann unter https://github.com/thunlp/ERNIE abgerufen werden.