Ein vergleichender Studie zu Merkmaltypen für altersbasierte Textklassifikation

Die Fähigkeit, automatisch das altersgerechte Publikum eines Romans zu bestimmen, eröffnet zahlreiche Möglichkeiten für die Entwicklung von Informationsabrufsystemen. Zunächst könnten Entwickler von Buchempfehlungssystemen und elektronischen Bibliotheken daran interessiert sein, Texte nach dem Alter der wahrscheinlichsten Leser zu filtern. Darüber hinaus möchten Eltern Literatur für Kinder auswählen. Schließlich ist es für Autoren und Verlage nützlich, zu ermitteln, welche Merkmale dafür entscheidend sind, ob ein Text für Kinder geeignet ist. In diesem Artikel vergleichen wir die empirische Wirksamkeit verschiedener Arten sprachlicher Merkmale für die altersbasierte Klassifikation fiktionaler Texte. Hierzu sammelten wir eine Textkorpus aus Buchvorschauen, die mit einer von zwei Kategorien – Kinder- oder Erwachsenenliteratur – markiert waren. Wir evaluierten folgende Merkmalsarten: Lesbarkeitsindizes, Sentiment, lexikalische, grammatische und allgemeine Merkmale sowie Verlagsattribute. Die Ergebnisse zeigen, dass Merkmale, die den Text auf Dokumentebene beschreiben, die Qualität von maschinellen Lernmodellen signifikant verbessern können.