HyperAIHyperAI
vor 17 Tagen

Kooperatives Selbst-Training des Maschinellen Lesens und Verstehens

Hongyin Luo, Shang-Wen Li, Mingye Gao, Seunghak Yu, James Glass
Kooperatives Selbst-Training des Maschinellen Lesens und Verstehens
Abstract

Vortrainierte Sprachmodelle haben die Leistung von nachgeschalteten Sprachverstehensaufgaben erheblich verbessert, darunter extraktive Fragebeantwortung, indem sie hochwertige kontextualisierte Wort-Embeddings bereitstellen. Dennoch erfordert die Schulung von Fragebeantwortungsmodellen weiterhin große Mengen an annotierten Daten für spezifische Domänen. In dieser Arbeit stellen wir einen kooperativen Self-Training-Framework, RGX, vor, der automatisch komplexere Frage-Antwort-Paare generiert, um die Modellleistung zu verbessern. RGX basiert auf einer maskierten Antwortextraktion mit einer interaktiven Lernumgebung, die einen Antwort-Entitäts-Recognizer, einen Frage-Generator und einen Antwort-Extraktor enthält. Gegeben ein Dokument mit einer maskierten Entität generiert der Generator eine Frage um die Entität herum, während der Extraktor trainiert wird, die maskierte Entität unter Verwendung der generierten Frage und der Rohtexte zu extrahieren. Das Framework ermöglicht die Schulung von Frage-Generierungs- und Antwortmodellen auf beliebigen Textkorpora ohne Annotation. Experimentelle Ergebnisse zeigen, dass RGX die bisher besten (SOTA) vortrainierten Sprachmodelle und Transfer-Learning-Ansätze auf Standard-Fragebeantwortungsbenchmarks übertrifft und unter gegebenen Modellgrößen- und Transfer-Learning-Einstellungen eine neue SOTA-Leistung erzielt.

Kooperatives Selbst-Training des Maschinellen Lesens und Verstehens | Neueste Forschungsarbeiten | HyperAI