16 天前

看得更深,见得更丰:面向深度感知的图像段落描述生成

{Hongzhi Yin, Zi Huang, Yang Li, Yadan Luo, Ziwei Wang}
摘要

随着句子级图像描述技术的广泛应用,如何实现图像段落的自动生成仍鲜有深入研究。以完整段落形式描述图像,不仅需要对句子进行有序、连贯且多样化的组织,其复杂性也远高于单句描述。现有的图像段落描述方法通常生成一系列句子来表征图像中的对象与感兴趣区域,其描述内容本质上是将包含特定对象或区域的图像片段输入传统的单句图像描述模型而获得。然而,该策略难以保证描述在空间层次上的立体性以及对象之间的非重叠性。为此,本文提出一种深度感知注意力模型(Depth-aware Attention Model, DAM),用于生成图像段落描述。该模型首先估计图像各区域的深度信息,以区分不同空间位置上的对象,进而引导语言解码器揭示对象之间的空间关系。该方法能够以逻辑清晰、连贯一致的方式完成段落生成。通过引入注意力机制,模型在生成段落过程中可快速调整句子关注焦点,同时避免对同一对象进行冗余描述。我们在 Visual Genome 数据集上进行了大量定量实验与用户研究,结果表明,所提出的模型在生成效果与可解释性方面均具有显著优势。

看得更深,见得更丰:面向深度感知的图像段落描述生成 | 最新论文 | HyperAI超神经