2 个月前

结合双向LSTM与二维最大池化的文本分类改进

Peng Zhou; Zhenyu Qi; Suncong Zheng; Jiaming Xu; Hongyun Bao; Bo Xu
结合双向LSTM与二维最大池化的文本分类改进
摘要

循环神经网络(RNN)是自然语言处理(NLP)任务中最常用的架构之一,因为其递归结构非常适合处理可变长度的文本。RNN可以通过首先将构成每个文本的标记转换为向量来利用词的分布式表示,这些向量形成一个矩阵。该矩阵包含两个维度:时间步长维度和特征向量维度。然后,现有的大多数模型通常仅在时间步长维度上使用一维(1D)最大池化操作或基于注意力的操作来获得固定长度的向量。然而,特征向量维度上的特征并不是相互独立的,简单地在时间步长维度上独立应用1D池化操作可能会破坏特征表示的结构。另一方面,在两个维度上应用二维(2D)池化操作可能为序列建模任务采样出更有意义的特征。为了整合矩阵在这两个维度上的特征,本文探讨了应用2D最大池化操作以获得文本的固定长度表示。本文还利用2D卷积来采样矩阵中更有意义的信息。实验在六个文本分类任务上进行,包括情感分析、问题分类、主观性分类和新闻组分类。与现有最先进模型相比,所提出的模型在6个任务中的4个任务上取得了优异的表现。具体而言,其中一个所提出的模型在斯坦福情感树库二分类和细粒度分类任务上达到了最高的准确率。

结合双向LSTM与二维最大池化的文本分类改进 | 最新论文 | HyperAI超神经