2 个月前
阿拉伯多方言分段:bi-LSTM-CRF 与 SVM 的对比研究
Mohamed Eldesouki; Younes Samih; Ahmed Abdelali; Mohammed Attia; Hamdy Mubarak; Kareem Darwish; Kallmeyer Laura

摘要
阿拉伯语分词对于多种自然语言处理(NLP)应用至关重要,如机器翻译和信息检索。分词涉及将单词分解为其构成的词干、词缀和附着语素。本文中,我们比较了两种方法,用于仅使用每种方言几千个训练样本对四种主要阿拉伯语方言进行分词。这两种方法分别是将问题视为排序问题,其中支持向量机(SVM)排序器选择最佳分词;以及将问题视为序列标注问题,其中双向长短期记忆递归神经网络(bi-LSTM RNN)结合条件随机场(CRF)确定单词的最佳分割位置。我们能够在使用相当有限的训练数据的情况下,为所有方言取得坚实的分词结果。此外,我们还表明,利用现代标准阿拉伯语数据进行领域适应并假设上下文独立性可以提高整体效果。