vor 17 Tagen

REALM: Retrieval-augmentierte Vortrainierung von Sprachmodellen

Kelvin Guu, Kenton Lee, Zora Tung, Panupong Pasupat, Ming-Wei Chang

Abstract

Die Vortrainierung von Sprachmodellen hat gezeigt, dass sie eine überraschend große Menge an Weltwissen erfassen können, was für Aufgaben im Bereich der natürlichen Sprachverarbeitung (NLP), wie etwa die Fragebeantwortung, entscheidend ist. Allerdings wird dieses Wissen implizit in den Parametern eines neuronalen Netzwerks gespeichert, wodurch immer größere Netzwerke erforderlich werden, um mehr Fakten abzudecken.Um Wissen auf eine modularere und interpretierbarere Weise zu erfassen, erweitern wir die Vortrainierung von Sprachmodellen um einen latenten Wissensretriever, der dem Modell ermöglicht, Dokumente aus einer großen Korpus wie Wikipedia während der Vortrainierung, Feintuning und Inferenz zu retrieven und darauf zu fokussieren. Erstmals zeigen wir, wie ein solcher Wissensretriever auf unsupervisierter Weise vortrainiert werden kann, wobei die Masked Language Modeling-Aufgabe als Lernsignal dient und der Rückpropagationspfad über einen Retrieval-Schritt hinweg verläuft, der Millionen von Dokumenten berücksichtigt.Wir demonstrieren die Wirksamkeit der Vortrainierung von Retrieval-erweiterten Sprachmodellen (REALM) durch Feintuning auf der anspruchsvollen Aufgabe der offenen Domänen-Fragebeantwortung (Open-QA). Wir vergleichen unsere Methode mit aktuellen Spitzenmodellen sowohl für explizite als auch implizite Wissensspeicherung an drei etablierten Open-QA-Benchmarks und zeigen, dass wir alle vorherigen Ansätze signifikant übertrifft (4–16 Prozentpunkte absolute Genauigkeit), wobei wir zudem qualitative Vorteile wie Interpretierbarkeit und Modularität bieten.