
摘要
用户意图分类是信息检索领域的一项重要任务。本文提出了一种改进的用户意图分类体系。以广泛采用的导航型、交易型和信息型查询的区分为基础,我们进一步识别出信息型查询的三个子类别:工具型(instrumental)、事实型(factual)和回避型(abstain)。该分类体系更加细致,标注者之间的一致性水平较高,可作为实现高效自动意图分类的可靠基础。新引入的类别有助于区分检索系统可采取不同响应策略的查询类型,例如在排序过程中对不同类型的结果进行优先级调整。我们采用基于Snorkel的弱监督方法,依据新的用户意图分类体系对ORCAS数据集进行标注,利用已知的启发式规则和关键词构建预测意图类别的规则体系。随后,我们使用多种机器学习模型开展了一系列实验,以弱监督阶段生成的标签作为训练数据。然而,实验结果表明,Snorkel所生成的结果并未被这些竞争性方法超越,反而达到了当前最先进的水平。基于规则的方法(如Snorkel)的优势在于其在实际系统中的高效部署能力——在真实应用场景中,系统需对每一条用户查询实时执行意图分类。本文发布的资源为ORCAS-I数据集:一个基于点击行为的Web查询数据集ORCAS的标注版本,包含1800万条连接关系,覆盖1000万个不同的查询。该数据集为后续研究提供了高质量的标注基础。