HyperAIHyperAI
vor 19 Tagen

Strukturelle selbstüberwachte Zielfunktionen für Transformer

Luca Di Liello
Strukturelle selbstüberwachte Zielfunktionen für Transformer
Abstract

Diese Dissertation konzentriert sich auf die Verbesserung des Vortrainings natürlicher Sprachmodelle mithilfe von unüberwachten Rohdaten, um deren Effizienz zu steigern und eine bessere Ausrichtung auf nachgeschaltete Anwendungen zu erreichen.Im ersten Teil stellen wir drei alternative Vortrainingsziele für BERTs Masked Language Modeling (MLM) vor: Random Token Substitution (RTS), Cluster-basierte Random Token Substitution (C-RTS) und Swapped Language Modeling (SLM). Diese Ziele basieren auf dem Austausch von Tokens anstelle von Maskierung, wobei RTS und C-RTS darauf abzielen, die ursprüngliche Token-Identität vorherzusagen, während SLM die ursprünglichen Tokenwerte prognostiziert. Die Ergebnisse zeigen, dass RTS und C-RTS weniger Vortrainingszeit erfordern, während sie gleichzeitig eine Leistung aufrechterhalten, die der von MLM vergleichbar ist. Überraschenderweise übertrifft SLM auf bestimmten Aufgaben sogar MLM, obwohl dasselbe Rechenbudget verwendet wird.Im zweiten Teil schlagen wir selbstüberwachte Vortrainingsaufgaben vor, die strukturell mit nachgeschalteten Anwendungen übereinstimmen und somit den Bedarf an gelabelten Daten verringern. Wir nutzen große Korpora wie Wikipedia und CC-News, um Modelle zu trainieren, verschiedene Textabschnitte daraufhin zu untersuchen, ob sie aus demselben Absatz oder Dokument stammen. Durch kontinuierliches Vortraining, ausgehend von bestehenden Modellen wie RoBERTa, ELECTRA, DeBERTa, BART und T5, demonstrieren wir erhebliche Leistungsverbesserungen bei Aufgaben wie Faktenüberprüfung, Antwort-Satz-Auswahl und Zusammenfassung. Diese Verbesserungen sind besonders ausgeprägt, wenn nur begrenzte annotierte Daten zur Verfügung stehen. Die vorgeschlagenen Ziele erreichen zudem state-of-the-art Ergebnisse auf mehreren Benchmark-Datensätzen, darunter FEVER (dev-Set), ASNQ, WikiQA und TREC-QA, sowie eine verbesserte Qualität der Zusammenfassungen. Wichtig ist, dass diese Techniken problemlos mit anderen Methoden kombiniert werden können, ohne die interne Struktur von Transformer-Modellen zu verändern, was sie für eine Vielzahl von Anwendungen im Bereich der natürlichen Sprachverarbeitung besonders vielseitig macht.

Strukturelle selbstüberwachte Zielfunktionen für Transformer | Forschungsarbeiten | HyperAI