8 个月前

自然语言处理

自然语言处理

Radu Tudor Ionescu Andrei M. Butnaru

摘要

本文提出了一种基于将词嵌入向量聚合成文档嵌入的新颖文本表示方法。我们的方法受到用于图像表示的局部聚合描述符向量（Vector of Locally-Aggregated Descriptors）的启发，具体步骤如下。首先，从文档集合中收集的词嵌入通过k均值聚类来学习一个包含语义相关词嵌入的码本。然后，每个词嵌入与其最近的聚类中心（码字）关联。文档的局部聚合词嵌入向量（Vector of Locally-Aggregated Word Embeddings, VLAWE）表示通过累积每个码字向量与其对应的文档中的词向量之间的差异来计算。我们将以无监督方式学习到的VLAWE表示应用于分类器，并展示了其在多种文本分类任务中的有效性。我们与一系列最新的先进方法进行了比较，证明了我们方法的有效性。此外，我们在电影评论数据集上取得了显著改进，报告准确率为93.3%，比现有最先进方法绝对提高了10%。我们的代码可在https://github.com/raduionescu/vlawe-boswe/ 获取。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

自然语言处理

自然语言处理

Radu Tudor Ionescu Andrei M. Butnaru

摘要

本文提出了一种基于将词嵌入向量聚合成文档嵌入的新颖文本表示方法。我们的方法受到用于图像表示的局部聚合描述符向量（Vector of Locally-Aggregated Descriptors）的启发，具体步骤如下。首先，从文档集合中收集的词嵌入通过k均值聚类来学习一个包含语义相关词嵌入的码本。然后，每个词嵌入与其最近的聚类中心（码字）关联。文档的局部聚合词嵌入向量（Vector of Locally-Aggregated Word Embeddings, VLAWE）表示通过累积每个码字向量与其对应的文档中的词向量之间的差异来计算。我们将以无监督方式学习到的VLAWE表示应用于分类器，并展示了其在多种文本分类任务中的有效性。我们与一系列最新的先进方法进行了比较，证明了我们方法的有效性。此外，我们在电影评论数据集上取得了显著改进，报告准确率为93.3%，比现有最先进方法绝对提高了10%。我们的代码可在https://github.com/raduionescu/vlawe-boswe/ 获取。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供