
要約
双方向長期短期記憶(Bi-LSTM)ネットワークは、最近、さまざまな自然言語処理(NLP)の系列モデル化タスクにおいて成功を収めていますが、入力表現、対象言語、データセットのサイズ、およびラベルノイズに対する依存性についてはまだ十分に理解されていません。本研究ではこれらの課題に取り組み、品詞タギングのために単語、文字、ユニコードバイトの埋め込みを使用したBi-LSTMを評価します。また、異なる言語とデータサイズで伝統的な品詞タガーとの比較を行います。さらに、希少単語を考慮する補助損失関数を組み合わせた新しいBi-LSTMモデルを提案します。このモデルは22の言語に対して最先端の性能を達成し、特に形態学的に複雑な言語に対して優れた結果を示しています。我々の分析によれば、Bi-LSTMは以前に考えられていたよりも訓練データのサイズやラベルの乱れ(小さなノイズレベルの場合)に対する影響が少ないことが示唆されています。