Bewertung der Textlesbarkeit für Lernende einer Zweitsprache

Diese Arbeit befasst sich mit der Aufgabe der Lesbarkeitsbewertung für Texte, die auf Lernende einer Zweitsprache (L2) abzielen. Eine der größten Herausforderungen dabei ist das Fehlen von signifikant umfangreichen, nach Niveaus annotierten Daten. Für diese Studie sammelten wir einen Datensatz von CEFR-graduierten Texten, die speziell für Lernende des Englischen als Zweitsprache erstellt wurden, und untersuchten die Lesbarkeitsbewertung sowohl für Muttersprachler als auch für L2-Lernende. Wir wendeten eine Generalisierungsmethode an, um Modelle, die auf größeren Korpora von Muttersprachlern trainiert wurden, anzupassen, um die Lesbarkeit von Texten für Lernende zu schätzen. Zudem erforschten wir Methoden zur Domänenanpassung und Selbstlernen, um die Muttersprachlerdaten zu nutzen und die Systemleistung bei den begrenzten L2-Daten zu verbessern. In unseren Experimenten erreichte das beste Modell zur Lesbarkeitsbewertung von Lerner-Texten eine Genauigkeit von 0,797 und einen PCC von 0,938.