vor 8 Monaten

Zusammenfassung

BERT verwendet das maskierte Sprachmodell (Masked Language Modeling, MLM) für die Vorabtrainung und ist eines der erfolgreichsten Vorabtrainingsmodelle. Da BERT jedoch die Abhängigkeiten zwischen den vorhergesagten Token vernachlässigt, führt XLNet ein permutiertes Sprachmodell (Permuted Language Modeling, PLM) für die Vorabtrainung ein, um dieses Problem zu lösen. Allerdings nutzt XLNet nicht die vollständige Positionsinformation eines Satzes und leidet daher von einer Positionsunterschied zwischen Vorabtrainung und Feinabstimmung. In dieser Arbeit schlagen wir MPNet vor, eine neuartige Vorabtrainierungsmethode, die die Vorteile von BERT und XLNet erbt und ihre Einschränkungen vermeidet. MPNet nutzt durch permutiertes Sprachmodell (im Gegensatz zu MLM in BERT) die Abhängigkeiten zwischen den vorhergesagten Token und gibt zusätzliche Positionsinformationen als Eingabe, sodass das Modell einen vollständigen Satz wahrnimmt und somit die Positionsunterschiede reduziert (im Gegensatz zu PLM in XLNet). Wir trainieren MPNet auf einem großen Datensatz (über 160 GB Textkorpora) vor und feinjustieren es an verschiedenen Downstream-Aufgaben (wie GLUE, SQuAD usw.). Die experimentellen Ergebnisse zeigen, dass MPNet sowohl MLM als auch PLM deutlich übertrifft und unter gleichen Modellbedingungen bessere Ergebnisse auf diesen Aufgaben erzielt als frühere state-of-the-art-Vorabtrainingsmethoden (z.B. BERT, XLNet, RoBERTa). Der Code und die vorab trainierten Modelle sind unter folgender URL verfügbar: https://github.com/microsoft/MPNet.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Transformer

Natürliche Sprachverarbeitung

LLM

Ansatz/Rahmenwerk

Natürliche Sprachverarbeitung

Aufgabe

Kaitao Song Xu Tan Tao Qin Jianfeng Lu Tie-Yan Liu

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Transformer

Natürliche Sprachverarbeitung

LLM

Ansatz/Rahmenwerk

Natürliche Sprachverarbeitung

Aufgabe

Kaitao Song Xu Tan Tao Qin Jianfeng Lu Tie-Yan Liu

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

MPNet: Maskierte und Permutierte Vorerfahrung für die Sprachverarbeitung | Paper | HyperAI

Command Palette

MPNet: Maskierte und Permutierte Vorerfahrung für die Sprachverarbeitung

Kaitao Song Xu Tan Tao Qin Jianfeng Lu Tie-Yan Liu

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

MPNet: Maskierte und Permutierte Vorerfahrung für die Sprachverarbeitung

Kaitao Song Xu Tan Tao Qin Jianfeng Lu Tie-Yan Liu

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

MPNet: Maskierte und Permutierte Vorerfahrung für die Sprachverarbeitung

Kaitao Song Xu Tan Tao Qin Jianfeng Lu Tie-Yan Liu

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters