Textlesbarkeitsbewertung voranbringen: Ein Transformer trifft auf handgebaute linguistische Merkmale

Wir berichten über zwei wesentliche Verbesserungen im Bereich der Lesbarkeitsbewertung: Erstens drei neuartige Merkmale im Bereich fortgeschrittener Semantik und zweitens zeitnahen Nachweis, dass traditionelle maschinelle Lernmodelle (z. B. Random Forest, basierend auf handgefertigten Merkmalen) mit Transformers (z. B. RoBERTa) kombiniert werden können, um die Modellleistung zu steigern. Zunächst untersuchen wir geeignete Transformers und traditionelle ML-Modelle. Anschließend extrahieren wir mithilfe selbstentwickelter Extraktionssoftware 255 handgefertigte sprachliche Merkmale. Schließlich kombinieren wir diese Merkmale zu mehreren hybriden Modellen, die eine state-of-the-art (SOTA)-Genauigkeit auf gängigen Datensätzen zur Lesbarkeitsbewertung erzielen. Die Verwendung handgefertigter Merkmale verbessert die Modellleistung insbesondere auf kleineren Datensätzen. Besonders hervorzuheben ist, dass unser hybrides Modell RoBERTA-RF-T1 eine nahezu perfekte Klassifizierungsgenauigkeit von 99 % erreicht – eine Steigerung um 20,3 % gegenüber dem vorherigen SOTA.