HyperAIHyperAI
vor 11 Tagen

DeBERTa: Decoding-verbessertes BERT mit entkoppeltem Attention

Pengcheng He, Xiaodong Liu, Jianfeng Gao, Weizhu Chen
DeBERTa: Decoding-verbessertes BERT mit entkoppeltem Attention
Abstract

Die jüngsten Fortschritte in vortrainierten neuronalen Sprachmodellen haben die Leistung vieler Aufgaben im Bereich des natürlichen Sprachverstehens (Natural Language Processing, NLP) erheblich verbessert. In diesem Paper stellen wir eine neue Modellarchitektur, DeBERTa (Decoding-enhanced BERT with disentangled attention), vor, die BERT und RoBERTa mithilfe zweier neuer Techniken verbessert. Erstens integriert DeBERTa einen entkoppelten Aufmerksamkeitsmechanismus, bei dem jedes Wort durch zwei Vektoren repräsentiert wird, die jeweils seinen Inhalt und seine Position kodieren. Die Aufmerksamkeitsgewichte zwischen den Wörtern werden dann mithilfe entkoppelter Matrizen basierend auf ihren Inhalten und relativen Positionen berechnet. Zweitens wird ein erweiterter Masken-Decoder eingesetzt, um absolute Positionen in der Dekodierschicht zu berücksichtigen, um die maskierten Tokens während der Vortrainingsphase vorherzusagen. Zusätzlich wird eine neue Methode des virtuellen adversarialen Trainings für das Fine-Tuning verwendet, um die Generalisierungsfähigkeit der Modelle zu erhöhen. Wir zeigen, dass diese Techniken die Effizienz des Vortrainings erheblich steigern und die Leistung sowohl bei Aufgaben des natürlichen Sprachverstehens (Natural Language Understanding, NLU) als auch bei Aufgaben der natürlichen Sprachgenerierung (Natural Language Generation, NLG) verbessern. Im Vergleich zu RoBERTa-Large erreicht ein DeBERTa-Modell, das auf der Hälfte der Trainingsdaten trainiert wurde, konsistent bessere Ergebnisse bei einer Vielzahl von NLP-Aufgaben: +0,9 % (90,2 % vs. 91,1 %) bei MNLI, +2,3 % (88,4 % vs. 90,7 %) bei SQuAD v2.0 und +3,6 % (83,2 % vs. 86,8 %) bei RACE. Insbesondere skalieren wir DeBERTa durch die Entwicklung einer größeren Version mit 48 Transform-Schichten und 1,5 Milliarden Parametern. Die erhebliche Leistungssteigerung ermöglicht es dem einzelnen DeBERTa-Modell erstmals, die menschliche Leistung auf dem SuperGLUE-Benchmark (Wang et al., 2019a) in Bezug auf den Makro-Durchschnitt zu übertreffen (89,9 gegenüber 89,8), während das Ensemble-DeBERTa-Modell am 6. Januar 2021 die Spitze der SuperGLUE-Topliste belegte und die menschliche Referenzleistung mit einer deutlichen Differenz übertraf (90,3 gegenüber 89,8).

DeBERTa: Decoding-verbessertes BERT mit entkoppeltem Attention | Neueste Forschungsarbeiten | HyperAI