7 个月前

自然语言处理

自然语言处理

Sowmya Vajjala Sagnik Banerjee

摘要

我们报告了在2017年母语识别（Native Language Identification, NLI）共享任务（团队名称：NLI-ISU）中，针对书面作文文本所开展的基于N-gram与嵌入（embedding）特征表示的实验研究。在测试集上表现最佳的系统取得了0.8264的宏平均F1分数，该系统基于词级一元、二元和三元语法（unigram, bigram, trigram）特征。为完成此项任务，我们探索了涵盖词级、字符级、词性标注（POS）以及词-词性混合表示的多种N-gram特征。在基于嵌入的特征表示方面，我们同时采用了词嵌入（word embeddings）与文档嵌入（document embeddings）。然而，与N-gram方法相比，所有嵌入表示方法的表现相对较差，这可能是因为嵌入模型主要捕捉语义相似性，而母语识别所依赖的语言差异更多体现为风格层面的特征，而非语义层面的差异。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

自然语言处理

自然语言处理

Sowmya Vajjala Sagnik Banerjee

摘要

我们报告了在2017年母语识别（Native Language Identification, NLI）共享任务（团队名称：NLI-ISU）中，针对书面作文文本所开展的基于N-gram与嵌入（embedding）特征表示的实验研究。在测试集上表现最佳的系统取得了0.8264的宏平均F1分数，该系统基于词级一元、二元和三元语法（unigram, bigram, trigram）特征。为完成此项任务，我们探索了涵盖词级、字符级、词性标注（POS）以及词-词性混合表示的多种N-gram特征。在基于嵌入的特征表示方面，我们同时采用了词嵌入（word embeddings）与文档嵌入（document embeddings）。然而，与N-gram方法相比，所有嵌入表示方法的表现相对较差，这可能是因为嵌入模型主要捕捉语义相似性，而母语识别所依赖的语言差异更多体现为风格层面的特征，而非语义层面的差异。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供