HyperAIHyperAI

Command Palette

Search for a command to run...

Zur Rolle der Textvorverarbeitung in neuronalen Netzwerkarchitekturen: Eine Evaluationsstudie zur Textkategorisierung und Stimmungsanalyse

Jose Camacho-Collados Mohammad Taher Pilehvar

Zusammenfassung

Die Textvorverarbeitung ist oft der erste Schritt im Prozess einer System für die natürliche Sprachverarbeitung (Natural Language Processing, NLP), mit potenzieller Auswirkungen auf dessen endgültige Leistung. Trotz ihrer Bedeutung hat die Textvorverarbeitung in der Literatur zum tiefen Lernen bisher wenig Aufmerksamkeit erfahren. In dieser Arbeit untersuchen wir den Einfluss einfacher Entscheidungen bei der Textvorverarbeitung (insbesondere Tokenisierung, Lemmatisierung, Umlauf in Kleinbuchstaben und Gruppierung von Mehrwortausdrücken) auf die Leistung eines standardisierten neuronalen Textklassifikators. Wir führen eine umfangreiche Bewertung an Standard-Benchmarks aus den Bereichen Textkategorisierung und Stimmungsanalyse durch. Obwohl unsere Experimente zeigen, dass eine einfache Tokenisierung des Eingabetexts im Allgemeinen ausreichend ist, legen sie auch erhebliche Schwankungen zwischen verschiedenen Vorverarbeitungstechniken nahe. Dies unterstreicht die Wichtigkeit, diesem oft übersehenen Schritt im Prozess besondere Aufmerksamkeit zu schenken, insbesondere wenn verschiedene Modelle miteinander verglichen werden. Abschließend liefert unsere Bewertung Erkenntnisse über die besten Praktiken für die Vorverarbeitung beim Training von Wortvektoren.请注意,这里有一些小的调整以确保译文更加符合德语的表达习惯和正式性:"Umlauf in Kleinbuchstaben" 更正为 "Umwandlung in Kleinbuchstaben"(转换为小写)。"Schwankungen zwischen verschiedenen Vorverarbeitungstechniken" 更正为 "Unterschiede in der Effektivität verschiedener Vorverarbeitungsmethoden"(不同预处理方法的有效性差异)。最终版本如下:Die Textvorverarbeitung ist oft der erste Schritt im Prozess eines Systems für die natürliche Sprachverarbeitung (Natural Language Processing, NLP), mit potenziellen Auswirkungen auf dessen endgültige Leistung. Trotz ihrer Bedeutung hat die Textvorverarbeitung in der Literatur zum tiefen Lernen bisher wenig Aufmerksamkeit erfahren. In dieser Arbeit untersuchen wir den Einfluss einfacher Entscheidungen bei der Textvorverarbeitung (insbesondere Tokenisierung, Lemmatisierung, Umwandlung in Kleinbuchstaben und Gruppierung von Mehrwortausdrücken) auf die Leistung eines standardisierten neuronalen Textklassifikators. Wir führen eine umfangreiche Bewertung an Standard-Benchmarks aus den Bereichen Textkategorisierung und Stimmungsanalyse durch. Obwohl unsere Experimente zeigen, dass eine einfache Tokenisierung des Eingabetexts im Allgemeinen ausreichend ist, legen sie auch erhebliche Unterschiede in der Effektivität verschiedener Vorverarbeitungsmethoden nahe. Dies unterstreicht die Wichtigkeit, diesem oft übersehenen Schritt im Prozess besondere Aufmerksamkeit zu schenken, insbesondere wenn verschiedene Modelle miteinander verglichen werden. Abschließend liefert unsere Bewertung Erkenntnisse über die besten Praktiken für die Vorverarbeitung beim Training von Wortvektoren.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp