HyperAIHyperAI
vor 2 Monaten

Cloze-getriebene Vortraining von Selbst-Aufmerksamkeitsnetzwerken

Alexei Baevski; Sergey Edunov; Yinhan Liu; Luke Zettlemoyer; Michael Auli
Cloze-getriebene Vortraining von Selbst-Aufmerksamkeitsnetzwerken
Abstract

Wir präsentieren einen neuen Ansatz zur Vortrainierung eines bidirektionalen Transformer-Modells, der erhebliche Leistungsverbesserungen bei einer Vielzahl von Sprachverarbeitungsaufgaben bietet. Unser Modell löst eine cloze-artige Wiederherstellungsaufgabe für Wörter, bei der jedes Wort entfernt wird und anhand des restlichen Textes vorhergesagt werden muss. Experimente zeigen erhebliche Leistungssteigerungen auf dem GLUE-Benchmark sowie neue Stand der Technik-Ergebnisse (state of the art) in der Named Entity Recognition (NER) und im Konstituentenparsen, konsistent mit dem gleichzeitig eingeführten BERT-Modell. Wir führen außerdem eine detaillierte Analyse verschiedener Faktoren durch, die zu effektiver Vortrainierung beitragen, darunter das Datenbereichs- und -volumen, die Modellkapazität und Variationen des cloze-artigen Ziels.

Cloze-getriebene Vortraining von Selbst-Aufmerksamkeitsnetzwerken | Neueste Forschungsarbeiten | HyperAI