2ヶ月前
テキスト前処理がニューラルネットワークアーキテクチャにおいて果たす役割:テキスト分類と感情分析に関する評価研究
Jose Camacho-Collados; Mohammad Taher Pilehvar

要約
テキスト前処理は、自然言語処理(NLP)システムのパイプラインにおける最初のステップであり、その最終的な性能に潜在的な影響を及ぼす可能性があります。しかし、その重要性にもかかわらず、テキスト前処理は深層学習の文献において十分な注目を集めていません。本論文では、標準的なニューラルテキスト分類器の性能に対する単純なテキスト前処理の決定(特にトークン化、基本形還元、小文字化、複合語グループ化)の影響を調査します。私たちは、テキスト分類と感情分析の標準的なベンチマークで広範な評価を行いました。実験結果は、入力テキストの単純なトークン化が一般的には適切であることを示していますが、前処理手法間での有意な変動も明らかにしました。これは、通常見落とされがちなこのステップに注意を払う重要性を示しており、特に異なるモデルを比較する際には重要です。最後に、私たちの評価は単語埋め込みを学習する際の最適な前処理手法に関する洞察を提供しています。