2ヶ月前

MoNoise: モジュラーノーマライゼーションシステムを使用したノイズのモデリング

Rob van der Goot; Gertjan van Noord
MoNoise: モジュラーノーマライゼーションシステムを使用したノイズのモデリング
要約

私たちは MoNoise: 一般的性と効率性に焦点を当てた正規化モデルを提案します。このモデルは、容易に再利用可能かつ適応可能であることを目指しています。正規化とは、非標準的な領域のテキストをより標準的な領域に翻訳するタスクであり、私たちの場合では、ソーシャルメディアデータを標準語に変換することです。提案するモデルは、各モジュールが異なる種類の正規化動作を担当するモジュール式候補生成に基づいています。最も重要な生成モジュールは、綴り訂正システムと単語埋め込みモジュールです。正規化タスクの定義によっては、静的な検索リストがパフォーマンスにとって重要となることがあります。私たちはランダムフォレスト分類器を訓練して候補をランキングし、これがすべて異なる種類の正規化動作に対して良好な一般化性能を持つことを確認しました。ランキングに使用される特徴量の多くは生成モジュールから派生していますが、N-gram 特徴量も重要な情報源となっています。私たちは MoNoise が英語とオランダ語のさまざまな正規化ベンチマークで最先端の手法を超えることを示しています。これらのベンチマークはそれぞれ、正規化タスクの定義が多少異なります。注:「MoNoise」、「spelling correction system」、「word embeddings module」、「random forest classifier」などの専門用語はそのまま使用しました。「N-gram」も一般的な用語として使用されています。

MoNoise: モジュラーノーマライゼーションシステムを使用したノイズのモデリング | 最新論文 | HyperAI超神経