
摘要
近年来,许多自然语言处理(NLP)任务的神经网络模型日益复杂,导致训练与部署难度不断上升。近期多项研究质疑了此类复杂架构的必要性,发现经过精心设计的简单模型同样具有出色的表现。本文表明,文档分类任务亦遵循这一规律:在对多个近期神经网络模型进行的大规模可复现性研究中,我们发现,仅采用带有适当正则化技术的简单双向LSTM(BiLSTM)架构,即可在四个标准基准数据集上达到与当前最先进方法相当甚至更优的准确率与F1值。令人意外的是,我们的简单模型在未使用注意力机制(attention mechanisms)的情况下,仍能取得优异性能。尽管所采用的正则化技术源自语言建模领域,且本身并非全新,但据我们所知,这是首次将这些技术应用于文档分类任务。本研究提供了一个开源平台,为未来在文档分类领域的研究奠定了坚实基础。