RoBERTa: Ein robust optimierter Ansatz für die BERT-Vorverarbeitung

Die Vortrainierung von Sprachmodellen hat zu erheblichen Leistungssteigerungen geführt, doch eine sorgfältige Vergleichsanalyse verschiedener Ansätze stellt eine Herausforderung dar. Die Trainierung ist rechnerisch aufwendig, wird oft auf privaten Datensätzen unterschiedlicher Größe durchgeführt und, wie wir zeigen werden, haben Hyperparameter-Optionen einen erheblichen Einfluss auf die endgültigen Ergebnisse. Wir präsentieren eine Replikationsstudie der BERT-Vortrainierung (Devlin et al., 2019), in der wir den Einfluss vieler wesentlicher Hyperparameter sowie der Trainingsdatenmenge sorgfältig quantifizieren. Unsere Analysen ergaben, dass BERT erheblich untertrainiert war und die Leistung aller nachfolgend veröffentlichten Modelle erreichen oder übertreffen kann. Unser bestes Modell erzielt Stand-of-the-Art-Ergebnisse in GLUE, RACE und SQuAD. Diese Ergebnisse unterstreichen die Bedeutung bisher vernachlässigter Designentscheidungen und werfen Fragen auf über die Quelle der kürzlich gemeldeten Verbesserungen. Wir stellen unsere Modelle und Code zur Verfügung.