2ヶ月前

機械翻訳を用いたエンティティ投影によるクロスリンガルNER

Alankar Jain; Bhargavi Paranjape; Zachary C. Lipton
機械翻訳を用いたエンティティ投影によるクロスリンガルNER
要約

100以上の言語が高性能な市販の機械翻訳システムでサポートされているにもかかわらず、ネームドエンティティ認識のための大規模な注釈付きコーパスを有する言語はその一部に過ぎない。この事実に基づき、我々は機械翻訳を活用してクロスリンガルネームドエンティティ認識のためのアノテーション投影手法を改善することを目指した。提案するシステムは、以下の点で従来のエンティティ投影手法を向上させる:(a) 機械翻訳システムを二段階で活用する:最初に文章を翻訳し、その後エンティティを翻訳する;(b) 記号的類似性と音韻的類似性に基づいてエンティティをマッチングする;(c) データセットから導き出される分布統計に基づいてマッチングを識別する。我々の手法は、5つの異なる言語におけるクロスリンガルネームドエンティティ認識の現行最先端手法に対して平均4.1ポイントの改善を達成した。さらに、アルメニア語においてはアルメニア語のソースデータで訓練された単一言語モデルさえも上回る最先端のF_1スコアを達成している。科技/学术术语处理:- 机械翻訳(Machine Translation)- 注釈付きコーパス(Annotated Corpora)- ネームドエンティティ認識(Named Entity Recognition)- アノテーション投影(Annotation Projection)- クロスリンガル(Cross-Lingual)- 記号的類似性(Orthographic Similarity)- 音韻的類似性(Phonetic Similarity)- 分布統計(Distributional Statistics)- 最先端手法(State-of-the-Art Methods)- F_1スコア(F_1 Score)

機械翻訳を用いたエンティティ投影によるクロスリンガルNER | 最新論文 | HyperAI超神経