
摘要
我们研究了旨在预测ASOS.com客户服务中心最常见客户意图——“我的订单在哪里?”——的客户意图分类器的性能。这类查询具有口语化表达、标签噪声以及消息长度较短等特点。为此,我们采用两种广泛使用的分类模型进行了大量实验:基于n-gram的逻辑回归模型,用于捕捉数据中的序列特征;以及能够自动提取序列模式的循环神经网络(RNN)模型。在保持嵌入层固定为GloVe词向量坐标的情况下,Mann-Whitney U检验结果显示,与线性n-gram分类器相比,纯RNN分类器在独立测试集上的F1分数较低(M1=0.828,M2=0.815;U=1,196,P=1.46×10⁻²⁰),除非所有网络层与其余参数联合训练(M1=0.831,M2=0.828;U=4,280,P=8.24×10⁻⁴)。在去噪标签数据集上,该纯神经网络模型取得了0.887的F1分数,与人工标注者(0.889 F1)表现相当,并显著优于线性分类器(0.865 F1)。在将模型校准以实现精度超过人工水平(0.93精度)的前提下,结果显示:纯神经网络模型的召回率(Recall)仅比人工水平低0.05(训练时间低于1小时),而线性n-gram模型的召回率差距为0.07(训练时间低于10分钟)。这表明,在现代人工智能生产系统中,线性n-gram模型是一种更为合理且高效的选择。