11 天前

N-gram 与 Embedding 表示在母语识别中的研究

{Sowmya Vajjala, Sagnik Banerjee}
N-gram 与 Embedding 表示在母语识别中的研究
摘要

我们报告了在2017年母语识别(Native Language Identification, NLI)共享任务(团队名称:NLI-ISU)中,针对书面作文文本所开展的基于N-gram与嵌入(embedding)特征表示的实验研究。在测试集上表现最佳的系统取得了0.8264的宏平均F1分数,该系统基于词级一元、二元和三元语法(unigram, bigram, trigram)特征。为完成此项任务,我们探索了涵盖词级、字符级、词性标注(POS)以及词-词性混合表示的多种N-gram特征。在基于嵌入的特征表示方面,我们同时采用了词嵌入(word embeddings)与文档嵌入(document embeddings)。然而,与N-gram方法相比,所有嵌入表示方法的表现相对较差,这可能是因为嵌入模型主要捕捉语义相似性,而母语识别所依赖的语言差异更多体现为风格层面的特征,而非语义层面的差异。

N-gram 与 Embedding 表示在母语识别中的研究 | 最新论文 | HyperAI超神经