HyperAIHyperAI

Command Palette

Search for a command to run...

Können wir durch die Verwendung großer Sprachmodelle bedeutende Erfolge im Diskursparsing von RST erzielen?

Aru Maekawa Tsutomu Hirao Hidetaka Kamigaito Manabu Okumura

Zusammenfassung

Kürzlich haben rein dekodierende, vortrainierte große Sprachmodelle (LLMs) mit mehreren Milliarden Parametern erhebliche Auswirkungen auf eine Vielzahl von Aufgaben der natürlichen Sprachverarbeitung (NLP) gehabt. Obwohl rein kodierende oder kodierer-dekodierende vortrainierte Sprachmodelle bereits ihre Effektivität bei der Diskursanalyse bewiesen haben, bleibt die Frage, inwiefern LLMs diese Aufgabe bewältigen können, ein offenes Forschungsproblem. Daher untersucht dieser Artikel, wie nützlich solche LLMs für die Diskursanalyse nach der rhetorischen Strukturtheorie (RST) sind. Hierbei werden sowohl die grundlegenden top-down- als auch bottom-up-Strategien des Parsing-Prozesses in Prompts umgewandelt, mit denen sich LLMs arbeiten lassen. Wir verwenden Llama 2 und feinjustieren es mit QLoRA, das weniger Parameter besitzt, die angepasst werden können. Die experimentellen Ergebnisse auf drei Benchmark-Datensätzen – RST-DT, Instr-DT und dem GUM-Korpus – zeigen, dass Llama 2 mit 70 Milliarden Parametern in der bottom-up-Strategie den aktuellen Stand der Technik (SOTA) erreicht hat und signifikante Unterschiede aufweist. Darüber hinaus demonstrierten unsere Parser ihre Übertragbarkeit bei der Bewertung am RST-DT-Datensatz, indem sie trotz der Anpassung am GUM-Korpus ähnliche Leistungen wie existierende Parser zeigten, die mit RST-DT trainiert wurden.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Können wir durch die Verwendung großer Sprachmodelle bedeutende Erfolge im Diskursparsing von RST erzielen? | Paper | HyperAI