vor 2 Monaten

Zur Rolle der Textvorverarbeitung in neuronalen Netzwerkarchitekturen: Eine Evaluationsstudie zur Textkategorisierung und Stimmungsanalyse

Jose Camacho-Collados; Mohammad Taher Pilehvar

Abstract

Die Textvorverarbeitung ist oft der erste Schritt im Prozess einer System für die natürliche Sprachverarbeitung (Natural Language Processing, NLP), mit potenzieller Auswirkungen auf dessen endgültige Leistung. Trotz ihrer Bedeutung hat die Textvorverarbeitung in der Literatur zum tiefen Lernen bisher wenig Aufmerksamkeit erfahren. In dieser Arbeit untersuchen wir den Einfluss einfacher Entscheidungen bei der Textvorverarbeitung (insbesondere Tokenisierung, Lemmatisierung, Umlauf in Kleinbuchstaben und Gruppierung von Mehrwortausdrücken) auf die Leistung eines standardisierten neuronalen Textklassifikators. Wir führen eine umfangreiche Bewertung an Standard-Benchmarks aus den Bereichen Textkategorisierung und Stimmungsanalyse durch. Obwohl unsere Experimente zeigen, dass eine einfache Tokenisierung des Eingabetexts im Allgemeinen ausreichend ist, legen sie auch erhebliche Schwankungen zwischen verschiedenen Vorverarbeitungstechniken nahe. Dies unterstreicht die Wichtigkeit, diesem oft übersehenen Schritt im Prozess besondere Aufmerksamkeit zu schenken, insbesondere wenn verschiedene Modelle miteinander verglichen werden. Abschließend liefert unsere Bewertung Erkenntnisse über die besten Praktiken für die Vorverarbeitung beim Training von Wortvektoren.请注意，这里有一些小的调整以确保译文更加符合德语的表达习惯和正式性："Umlauf in Kleinbuchstaben" 更正为 "Umwandlung in Kleinbuchstaben"（转换为小写）。"Schwankungen zwischen verschiedenen Vorverarbeitungstechniken" 更正为 "Unterschiede in der Effektivität verschiedener Vorverarbeitungsmethoden"（不同预处理方法的有效性差异）。最终版本如下：Die Textvorverarbeitung ist oft der erste Schritt im Prozess eines Systems für die natürliche Sprachverarbeitung (Natural Language Processing, NLP), mit potenziellen Auswirkungen auf dessen endgültige Leistung. Trotz ihrer Bedeutung hat die Textvorverarbeitung in der Literatur zum tiefen Lernen bisher wenig Aufmerksamkeit erfahren. In dieser Arbeit untersuchen wir den Einfluss einfacher Entscheidungen bei der Textvorverarbeitung (insbesondere Tokenisierung, Lemmatisierung, Umwandlung in Kleinbuchstaben und Gruppierung von Mehrwortausdrücken) auf die Leistung eines standardisierten neuronalen Textklassifikators. Wir führen eine umfangreiche Bewertung an Standard-Benchmarks aus den Bereichen Textkategorisierung und Stimmungsanalyse durch. Obwohl unsere Experimente zeigen, dass eine einfache Tokenisierung des Eingabetexts im Allgemeinen ausreichend ist, legen sie auch erhebliche Unterschiede in der Effektivität verschiedener Vorverarbeitungsmethoden nahe. Dies unterstreicht die Wichtigkeit, diesem oft übersehenen Schritt im Prozess besondere Aufmerksamkeit zu schenken, insbesondere wenn verschiedene Modelle miteinander verglichen werden. Abschließend liefert unsere Bewertung Erkenntnisse über die besten Praktiken für die Vorverarbeitung beim Training von Wortvektoren.