
摘要
深度神经网络(DNN)在大规模数据集上进行训练时,数据标注与模型训练的成本和时间开销日益成为主要瓶颈。通过主动学习等策略识别出更具代表性的小型数据样本,有助于缓解这一瓶颈。以往自然语言处理(NLP)领域的主动学习研究指出,基于不确定性的查询方法在获取样本时存在采样偏差问题,并为此提出了代价较高的解决方案。本文通过一项大规模实证研究发现,采用深度模型(如FastText.zip,简称FTZ)的后验熵进行主动集选择,对采样偏差以及不同算法配置(如查询规模和策略)具有较强的鲁棒性,这一结论与传统文献的观点相悖。此外,我们进一步证明,基于FTZ的查询策略所生成的样本集,其质量可与更复杂的先进方法(如集成网络)相媲美。更重要的是,我们通过构建极小但高质量的数据集,验证了所选样本的有效性,实现了大型模型的快速、低成本训练。基于上述发现,我们提出了一种简洁而高效的深度主动文本分类基线方法,其性能超越了当前最先进的技术。本研究对数据集压缩以及涉及主动学习、半监督学习或在线学习等场景具有重要的实用价值与参考意义。相关代码与模型已开源,详见:https://github.com/drimpossible/Sampling-Bias-Active-Learning