12 天前

更少的特征在母语识别任务中表现良好

{{\c{C}}a{\u{g}}r{\i} {\c{C}}{\o}ltekin, Taraka Rama}
更少的特征在母语识别任务中表现良好
摘要

本文介绍了我们在2017年自然语言识别(NLI)共享任务中的实验结果。我们参加了作文(essay)、语音(speech)以及融合(fusion)三个任务,其中融合任务综合运用文本、语音及i-vectors特征,旨在识别给定输入的母语。在作文任务中,基于词二元语法(word bigrams)与字符七元语法(character 7-grams)的线性支持向量机(SVM)系统表现最佳。在语音任务中,仅基于i-vectors的LDA分类器优于结合语音转写文本特征与i-vectors的混合系统。在融合任务中,我们尝试了多种组合方式,包括i-vectors与高阶n-gram特征的结合、i-vectors与词一元语法(word unigrams)的结合、基于平均概率的集成方法,以及堆叠式集成系统(stacked ensemble system)。实验结果表明,词一元语法与i-vectors的组合在性能上优于使用更多n-gram特征的系统。我们表现最优的系统在作文、语音和融合任务中的F1得分分别为87.16%、83.33%和91.75%。

更少的特征在母语识别任务中表现良好 | 最新论文 | HyperAI超神经