HyperAIHyperAI

Command Palette

Search for a command to run...

RoBERTa: Ein robust optimierter Ansatz für die BERT-Vorverarbeitung

Yinhan Liu; Myle Ott; Naman Goyal; Jingfei Du; Mandar Joshi; Danqi Chen; Omer Levy; Mike Lewis; Luke Zettlemoyer; Veselin Stoyanov

Zusammenfassung

Die Vortrainierung von Sprachmodellen hat zu erheblichen Leistungssteigerungen geführt, doch eine sorgfältige Vergleichsanalyse verschiedener Ansätze stellt eine Herausforderung dar. Die Trainierung ist rechnerisch aufwendig, wird oft auf privaten Datensätzen unterschiedlicher Größe durchgeführt und, wie wir zeigen werden, haben Hyperparameter-Optionen einen erheblichen Einfluss auf die endgültigen Ergebnisse. Wir präsentieren eine Replikationsstudie der BERT-Vortrainierung (Devlin et al., 2019), in der wir den Einfluss vieler wesentlicher Hyperparameter sowie der Trainingsdatenmenge sorgfältig quantifizieren. Unsere Analysen ergaben, dass BERT erheblich untertrainiert war und die Leistung aller nachfolgend veröffentlichten Modelle erreichen oder übertreffen kann. Unser bestes Modell erzielt Stand-of-the-Art-Ergebnisse in GLUE, RACE und SQuAD. Diese Ergebnisse unterstreichen die Bedeutung bisher vernachlässigter Designentscheidungen und werfen Fragen auf über die Quelle der kürzlich gemeldeten Verbesserungen. Wir stellen unsere Modelle und Code zur Verfügung.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp