BERT-Embeddings zur automatischen Lesbarkeitsbewertung

Die automatische Lesbarkeitsbewertung (Automatic Readability Assessment, ARA) bezeichnet die Aufgabe, das Maß an Leichtigkeit oder Schwierigkeit von Textdokumenten für eine Zielgruppe zu bewerten. Für Forscher stellt eine der vielen offenen Probleme in diesem Bereich dar, Modelle, die für diese Aufgabe trainiert wurden, auch für sprachlich unterversorgte Sprachen wirksam zu machen. In dieser Studie schlagen wir eine alternative Methode vor, die reichhaltige Embeddings von BERT-Modellen mit handgezeichneten sprachlichen Merkmalen durch eine kombinierte Vorgehensweise zur Lesbarkeitsbewertung nutzt. Die Ergebnisse zeigen, dass die vorgeschlagene Methode klassische Ansätze bei der Lesbarkeitsbewertung sowohl auf englischen als auch auf filipinischen Datensätzen übertrifft und dabei bis zu einer Steigerung der F1-Leistung um 12,4 % erreicht. Zudem zeigen wir, dass die allgemeinen Informationen, die in BERT-Embeddings kodiert sind, als Ersatzmerkmalsmenge für sprachlich unterversorgte Sprachen wie das Filipino dienen können, bei denen aufgrund begrenzter sprachlicher und syntaktischer NLP-Tools die explizite Extraktion von Merkmalswerten für die Aufgabe schwierig ist.