2 个月前

DocBERT:用于文档分类的BERT

Ashutosh Adhikari; Achyudh Ram; Raphael Tang; Jimmy Lin
DocBERT:用于文档分类的BERT
摘要

据我们所知,这是首次将BERT应用于文档分类。尽管该任务的一些特点可能让人认为BERT并不是最合适的模型:语法结构对内容类别影响较小,文档长度通常超过典型的BERT输入长度,且文档往往具有多个标签。然而,我们的研究表明,使用BERT构建的简单分类模型能够在四个流行数据集上达到当前最佳水平。为了应对BERT推理过程中高昂的计算成本,我们将BERT-large的知识提炼到小型双向LSTM中,在多个数据集上使用少30倍的参数达到了与BERT-base相当的性能。本文的主要贡献在于提供了改进的基线模型,可以为未来的研究奠定基础。

DocBERT:用于文档分类的BERT | 最新论文 | HyperAI超神经