2 个月前

基于多任务三流网络的密集关系图像描述生成

Dong-Jin Kim; Tae-Hyun Oh; Jinsoo Choi; In So Kweon
基于多任务三流网络的密集关系图像描述生成
摘要

我们介绍了密集关系描述(Dense Relational Captioning),这是一种新颖的图像描述任务,旨在生成多个描述视觉场景中对象之间关系的标题。关系描述为每个对象组合之间的关系提供了明确的描述。该框架在多样性和信息量方面具有优势,能够基于对象间的关系实现对图像的全面理解,例如关系提议生成。为了理解对象之间的关系,词性(Part-of-Speech, POS;即主语-宾语-谓语类别)可以作为有价值的先验信息来引导标题中的词语因果序列。为此,我们提出了一种多任务三流网络(Multi-Task Triple-Stream Network, MTTSNet),该网络由三个负责不同词性的循环单元组成,并通过联合预测每个词语的正确标题和词性进行训练。此外,我们发现通过显式关系模块调制对象嵌入可以提高MTTSNet的性能。通过在大规模数据集上进行广泛的实验分析以及使用多种评估指标,我们展示了所提出的模型能够生成更多样化和更丰富的标题。最后,我们介绍了该框架在整体图像描述、场景图生成和检索任务中的应用。

基于多任务三流网络的密集关系图像描述生成 | 最新论文 | HyperAI超神经