8ヶ月前

概要

ソーシャルメディアは豊富な価値ある生データの源を提供していますが、非公式な書き方が多くの自然言語処理（NLP）タスクにとって迅速にボトルネックとなることがあります。既製のツールは通常、公式テキストで訓練されており、短いオンライン投稿に見られるノイズを明示的に処理することはできません。さらに、頻繁に発生する多様な言語変異は、スラングや略語を含む場合特に、人間にとっても意味を理解することが困難な課題を呈します。テキスト正規化は、オンラインユーザー生成テキストを標準的な形式に変換することを目指しています。現在のテキスト正規化システムは、文字列または音韻類似性と局所的に動作する分類モデルに依存しています。我々は、このタスクにおいて文脈情報を処理することが重要であると主張し、ソーシャルメディアのテキスト正規化のためにハイブリッド単語-文字アテンションベースのエンコーダー-デコーダーモデルを導入します。このモデルはNLPアプリケーションの前処理ステップとして機能し、ソーシャルメディアにおけるノイズのあるテキストへの適応を可能にします。我々の文字ベースのコンポーネントは、オンラインユーザー生成テキストで一般的に見られるエラーを捉えるために設計された合成敵対例で訓練されます。実験結果から、我々のモデルはテキスト正規化向けに設計されたニューラルアーキテクチャを超えており、最先端の関連研究と同等の性能を達成していることが示されています。

ソースPDF