Das Lernen von Versmaßen arabischer und englischer Gedichte mit rekurrenten Neuronalen Netzen: Ein Schritt vorwärts für die Sprachverarbeitung und -synthese

Die Erkennung eines Textes als Gedicht oder Prosa ist für die meisten Menschen in der Regel einfach; jedoch können nur Fachleute bestimmen, welchem Versmaß ein Gedicht zugehört. In dieser Arbeit bauen wir Rekurrente Neuronale Netzwerke (RNN) auf, die in der Lage sind, Gedichte nach ihrem Versmaß aus plain text zu klassifizieren. Der Eingabetext wird auf Zeichenebene kodiert und direkt den Modellen ohne manuelle Merkmalsextraktion zugeführt. Dies ist ein Fortschritt im Bereich des maschinellen Verständnisses und der Synthese von Sprachen im Allgemeinen und insbesondere der arabischen Sprache. Die Netzwerke konnten die Gedichte unter den 16 arabischen Versmessen und den 4 englischen Versmessen mit einer Gesamtgenauigkeit von 96,38 % beziehungsweise 82,31 % korrekt klassifizieren. Die für diese Forschung verwendeten Gedichtdatensätze waren umfangreich, mit über 1,5 Millionen Versen, und wurden von verschiedenen nicht-technischen Quellen heruntergeladen, hauptsächlich arabischen und englischen Literaturseiten, in unterschiedlichen heterogenen und unstrukturierten Formaten. Diese Datensätze sind nun öffentlich in einem sauberen, strukturierten und dokumentierten Format verfügbar für zukünftige Forschungen. Nach bestem Wissen der Autoren ist diese Forschung die erste, die sich mit der Klassifikation von Versmessen im maschinellen Lernen beschäftigt – insbesondere im Ansatz ohne Merkmalsextraktion bei RNNs. Darüber hinaus ist der Datensatz der erste öffentlich verfügbare Datensatz, der für zukünftige computergestützte Forschungen bereitgestellt wird.