Rekurrente Faltungsneuronale Netze für die Textklassifikation
Text-Klassifikation ist eine grundlegende Aufgabe in vielen Anwendungen der natürlichen Sprachverarbeitung (NLP). Traditionelle Textklassifizierer beruhen oft auf zahlreichen menschlich entworfenen Merkmalen, wie Wörterbüchern, Wissensbasen oder speziellen Baumkernen. Im Gegensatz zu traditionellen Ansätzen stellen wir ein rekurrentes faltendes neuronales Netzwerk für die Text-Klassifikation ohne menschlich gestaltete Merkmale vor. In unserem Modell setzen wir eine rekurrente Struktur ein, um kontextuelle Informationen so weit wie möglich zu erfassen, während die Wortrepräsentationen erlernt werden – was im Vergleich zu herkömmlichen window-basierten neuronalen Netzen erheblich weniger Rauschen verursachen kann. Zudem verwenden wir eine Max-Pooling-Schicht, die automatisch erkennt, welche Wörter eine entscheidende Rolle bei der Text-Klassifikation spielen, um die wesentlichen Komponenten im Text zu erfassen. Wir führen Experimente auf vier häufig verwendeten Datensätzen durch. Die experimentellen Ergebnisse zeigen, dass die vorgeschlagene Methode mehrere state-of-the-art-Verfahren auf verschiedenen Datensätzen übertrifft, insbesondere auf dokumentenbasierten Datensätzen.