vor 2 Monaten

MUSS: Multilinguale unsupervises Satzvereinfachung durch die Gewinnung von Paraphrasen

Louis Martin; Angela Fan; Éric de la Clergerie; Antoine Bordes; Benoît Sagot

Abstract

Der Fortschritt bei der Satzvereinfachung wurde durch den Mangel an etikettierten parallelen Vereinfachungsdaten behindert, insbesondere in Sprachen außer Englisch. Wir stellen MUSS vor, ein multilinguales unüberwachtes System zur Satzvereinfachung, das keine etikettierten Vereinfachungsdaten erfordert. MUSS verwendet einen neuen Ansatz zur Satzvereinfachung, der starke Modelle mit satzbasierter Paraphrasendaten anstelle von echten Vereinfachungsdaten trainiert. Diese Modelle nutzen unüberwachte Vortraining und steuerbare Generierungsmechanismen, um Attribute wie Länge und lexikalische Komplexität während der Inferenz flexibel anzupassen. Des Weiteren präsentieren wir eine Methode, um solche Paraphrasendaten in jeder Sprache aus Common Crawl mithilfe semantischer Satzemebden zu gewinnen, wodurch die Notwendigkeit von etikettierten Daten beseitigt wird. Wir evaluieren unseren Ansatz anhand von Vereinfachungsbenchmarks für Englisch, Französisch und Spanisch und erreichen nahezu übereinstimmende oder überlegene Ergebnisse im Vergleich zu den bisher besten überwachten Methoden, obwohl wir keine etikettierten Vereinfachungsdaten verwenden. Durch die Einbeziehung etikettierter Vereinfachungsdaten setzen wir neue Maßstäbe in diesem Bereich.Anmerkungen:- "MUSS" steht für "Multilingual Unsupervised Sentence Simplification".- "Common Crawl" ist ein offenes Datensatzprojekt und bleibt daher unübersetzt.- "Inferenz" wird im Kontext maschinelles Lernen verwendet und bezieht sich auf die Anwendung eines trainierten Modells auf neue Daten.- "Satzemebden" (oder "Satz-Einbettungen") sind semantische Darstellungen von Sätzen in einem hochdimensionalen Raum.