HyperAIHyperAI
vor 4 Monaten

MPNet: Maskierte und Permutierte Vorerfahrung für die Sprachverarbeitung

Kaitao Song; Xu Tan; Tao Qin; Jianfeng Lu; Tie-Yan Liu
MPNet: Maskierte und Permutierte Vorerfahrung für die Sprachverarbeitung
Abstract

BERT verwendet das maskierte Sprachmodell (Masked Language Modeling, MLM) für die Vorabtrainung und ist eines der erfolgreichsten Vorabtrainingsmodelle. Da BERT jedoch die Abhängigkeiten zwischen den vorhergesagten Token vernachlässigt, führt XLNet ein permutiertes Sprachmodell (Permuted Language Modeling, PLM) für die Vorabtrainung ein, um dieses Problem zu lösen. Allerdings nutzt XLNet nicht die vollständige Positionsinformation eines Satzes und leidet daher von einer Positionsunterschied zwischen Vorabtrainung und Feinabstimmung. In dieser Arbeit schlagen wir MPNet vor, eine neuartige Vorabtrainierungsmethode, die die Vorteile von BERT und XLNet erbt und ihre Einschränkungen vermeidet. MPNet nutzt durch permutiertes Sprachmodell (im Gegensatz zu MLM in BERT) die Abhängigkeiten zwischen den vorhergesagten Token und gibt zusätzliche Positionsinformationen als Eingabe, sodass das Modell einen vollständigen Satz wahrnimmt und somit die Positionsunterschiede reduziert (im Gegensatz zu PLM in XLNet). Wir trainieren MPNet auf einem großen Datensatz (über 160 GB Textkorpora) vor und feinjustieren es an verschiedenen Downstream-Aufgaben (wie GLUE, SQuAD usw.). Die experimentellen Ergebnisse zeigen, dass MPNet sowohl MLM als auch PLM deutlich übertrifft und unter gleichen Modellbedingungen bessere Ergebnisse auf diesen Aufgaben erzielt als frühere state-of-the-art-Vorabtrainingsmethoden (z.B. BERT, XLNet, RoBERTa). Der Code und die vorab trainierten Modelle sind unter folgender URL verfügbar: https://github.com/microsoft/MPNet.