ERNIE: Erweiterte Repräsentation durch Wissensintegration

Wir präsentieren ein neues Sprachrepräsentationsmodell, das durch Wissensintegration verbessert wurde, und es heißt ERNIE (Enhanced Representation through kNowledge IntEgration). Inspiriert von der Maskierungsstrategie von BERT, ist ERNIE darauf ausgelegt, Sprachrepräsentationen durch Wissensmaskierungsstrategien zu verbessern, die sowohl entitätsbasierte als auch phrasenbasierte Maskierung umfassen. Die entitätsbasierte Strategie maskiert Entitäten, die in der Regel aus mehreren Wörtern bestehen. Die phrasenbasierte Strategie maskiert den gesamten Ausdruck, der aus mehreren zusammenhängenden Wörtern als konzeptuelles Ganzes besteht. Experimentelle Ergebnisse zeigen, dass ERNIE andere Baseline-Methoden übertrifft und neue Standarts auf fünf chinesischen Natürlichsprachenaufgaben erreicht, darunter natürliche Sprachinferenz, semantische Ähnlichkeit, Named-Entity-Erkennung (Named Entity Recognition), Sentimentanalyse und Fragebeantwortung. Wir demonstrieren außerdem, dass ERNIE eine stärkere Fähigkeit zur Wissensinferenz in einem Lückentexttest besitzt.