HyperAI超神经

一句话总结

名为 phi-LSTM 的基于短语的层次化长短期记忆模型，通过在推理阶段结合独立解码的变长名词短语与缩略句来生成图像描述，从而产出更具新颖性和内容丰富的描述，在 Flickr8k、Flickr30k 和 MS-COCO 数据集上均取得了具有竞争力的性能。

核心贡献

本文提出了一种基于短语的层次化长短期记忆（phi-LSTM）模型，通过显式建模自然语言的时间层次结构来生成图像描述。
该架构采用两级解码流程，底层短语解码器提取变长名词短语，上层缩略句解码器生成精简大纲，两者在推理阶段结合以形成完整描述。
在 Flickr8k、Flickr30k 和 MS-COCO 数据集上的实验表明，该框架的性能与当前最先进方法相当或更优，同时持续生成更具新颖性和语义更丰富的图像描述。

引言

自动图像描述技术通过从视觉数据生成描述性文本，连接了计算机视觉与自然语言处理，这一能力对无障碍访问和智能内容理解至关重要。传统方法通常依赖卷积网络与序列循环模型的结合，逐词生成描述。尽管在基础序列建模中表现有效，但这类扁平化架构无法捕捉语言固有的层次结构，往往导致输出僵化，难以处理复杂的句法依赖关系与新颖性。为解决这一问题，本文作者引入了一种基于短语的层次化 LSTM 模型，该模型从短语层级向上逐层解码至句子层级。该框架采用下层解码器生成变长名词短语，并采用上层解码器基于这些短语的末尾词构建缩略句。通过将生成过程与自然语言层次结构对齐，该架构在保持标准基准数据集上具有竞争力的性能的同时，生成了结构更连贯且更具新颖性的描述。

方法

所提出的 phi-LSTM 模型采用层次化架构，通过将任务分解为两个独立阶段：短语级解码与句子级解码，来生成图像描述。如下图所示，该框架采用自底向上的工作方式，首先生成代表图像内实体的名词短语（NP），随后将这些短语整合到缩略句（AS）结构中，从而构建完整句子。

该模型的核心由两个相互连接的基于 LSTM 的解码器组成。第一个是短语解码器，负责生成单个 NP。给定图像 $I$ ，使用在 ImageNet 上预训练的 CNN 提取 $D$ 维特征向量，随后通过可训练矩阵 $\mathbf{W}_{\text{ip}}$ 和偏置 $\mathbf{b}_{\text{ip}}$ 将其转换为 $K$ 维图像嵌入。该嵌入图像特征与起始词 token $\mathbf{x}_{\text{sp}}$ 共同作为短语解码器的初始上下文。解码器逐步处理每个 NP 内的词序列，使用词嵌入矩阵 $\mathbf{W}_{\text{ep}}$ 在每个时间步 $t_p$ 将每个真实词 $w_{t_p}^i$ 转换为向量。每个时间步的 LSTM 模块基于输入 $\mathbf{x}_{t_p}^i$ 、前一隐藏状态 $\mathbf{h}_{t_p-1}$ 以及内部记忆单元 $\mathbf{c}_{t_p}$ 计算隐藏状态 $\mathbf{h}_{t_p}$ 。每个时间步的输出为词汇表上的概率分布 $\mathbf{p}_{t_p+1}$ ，表示下一个词出现的可能性。每个 NP 最终时间步的隐藏状态被用作该短语的组合向量表示 $\mathbf{z}_i$ 。

第二个组件是缩略句（AS）解码器。该解码器以完整描述作为输入，其中每个 NP 被视为一个独立单元，其余词单独处理。每个时间步 $t_s$ 的输入由嵌入图像特征、起始词 token $\mathbf{x}_{\text{ss}}$ 、词的词嵌入 $\mathbf{W}_{\text{es}}w_{t_s}$ 或短语的组合向量 $\mathbf{z}_i$ 组合而成。AS 解码器被设计为同时预测两个输出：一个二元指示器用于判断下一个输入是短语还是词（短语指示），以及 AS 序列中下一个词的词汇表 softmax 分布。词预测的真实标签为：若下一个输入是短语，则为该短语的最后一个词；否则为下一个词本身。该设计使模型能够学习控制生成词与替换短语之间的流程。

在训练过程中，模型通过最小化组合目标函数进行优化。主要组件为词预测的对数似然，计算方式为整个描述负平均困惑度。该指标包含短语解码器与 AS 解码器词预测的困惑度。次要组件为短语指示预测的 hinge loss，用于分类下一个输入应为短语还是词。整体代价函数为这两个组件的加权和，对所有训练样本求平均，并对模型参数施加 L2 正则化惩罚。

在推理阶段生成图像描述时，模型采用两阶段束搜索流程。首先，短语解码器为给定图像生成候选 NP 列表。采用束宽度为 $b_p$ 的束搜索，每个 NP 的得分计算为其词对数概率之和，并按 NP 长度进行归一化。随后应用优化步骤以过滤低质量候选项。接着，AS 解码器利用该候选 NP 列表生成完整描述。它执行束宽度为 $b_s$ 的束搜索，在每一步预测下一个词或下一个短语。当预测到短语时，模型将预测词与生成的 NP 候选列表进行比对，选择末尾词与预测匹配的 NP 作为下一步输入。最终选择得分最高的描述，其得分计算方式为负困惑度。该流程确保生成的描述由具有语义意义的短语构成。

实验

本研究在三个标准图像描述基准上进行评估，将所提出的层次化基于短语的模型与扁平化序列基线及多种最先进架构进行比较。对比实验验证了该模型在基于注意力与特征增强方法上的竞争力，而唯一性评估证实层次化解码显著提升了描述的新颖性与词汇多样性。定性分析进一步表明，该结构提升了罕见词与特定功能词推断的准确性，但受限于底层 CNN 编码器，在捕捉复杂对象关系与精确计数方面仍存在不足。最终结果表明，基于短语的层次化生成方法无需外部注意力机制或补充视觉输入，即可有效平衡描述精度与语言多样性。

下表展示了不同模型与数据集在描述截断设置上的对比，揭示了模型类型与截断长度对受影响描述比例的影响。与基线模型及采用 AS 解码的 phi-LSTM 相比，采用 NP 解码的 phi-LSTM 模型始终使受影响描述的比例保持较低水平，在 MS-COCO 数据集上尤为明显。在所有数据集上，采用 NP 解码的 phi-LSTM 模型均降低了受影响描述的比例。不同模型间的截断长度差异显著，phi-LSTM (NP) 的截断长度最短，基线模型最长。相较于 Flickr8k 与 Flickr30k，MS-COCO 数据集在所有模型上均显示出更高的受影响描述比例。

本文作者在三个数据集上将其基于短语的模型与基线序列模型进行对比，重点考察生成描述的唯一性与新颖性。结果表明，该模型在词数较少的情况下生成了更多唯一且新颖的描述，表明尽管输出较短，但多样性得到提升。对比凸显了词使用习惯的差异，所提模型能更好地捕捉低频词，生成的描述在训练数据中较少出现。在所有数据集上，所提模型相比基线生成了更多唯一且新颖的描述。该模型生成的描述更短，但在词使用多样性上仍保持更高水平，尤其是低频词方面。基线模型倾向于生成训练数据中频繁出现的高频词，而所提模型有效避免了词汇的过度重复。

本文作者使用 SPICE 指标将 phi-LSTM 模型与基线模型进行对比，以评估描述质量。结果表明，phi-LSTM 模型在对象与属性精度上有所提升，同时召回率更高，且在尺寸与颜色指标上表现更佳。基线模型在关系与基数度量上表现更好，但 phi-LSTM 模型在对象与属性相关方面取得了显著进步。相比基线，phi-LSTM 模型实现了更高的对象与属性精度。phi-LSTM 模型在尺寸与颜色指标上优于基线。基线模型在关系与基数度量上表现更佳。

本文作者在三个数据集上将其基于短语的模型与基线序列模型进行对比，表明该方法能生成更多唯一且新颖的描述，同时提升对象与属性描述的精度。结果表明，层次化解码过程在描述多样性与语义准确性方面带来更优性能，尤其在低频词方面。该模型的设计支持对名词短语进行一致的时间尺度解码，有助于生成更精确且多样化的描述。在所有数据集上，所提模型相比基线生成了更多唯一且新颖的描述。该模型提升了对象与属性描述的精度，尤其针对低频词。层次化解码过程使描述多样性与语义准确性得到更好提升。

本文作者在三个数据集上将其提出的 phi-LSTM 模型与基线序列模型进行对比，评估描述的唯一性、新颖性与词使用情况。结果表明，尽管生成的描述略短，phi-LSTM 模型仍产生了更高比例的唯一且新颖的描述。该模型在所有数据集上均实现了词汇表内更多唯一词，表明词汇多样性得到改善。相比基线模型，phi-LSTM 模型生成了更高比例的唯一且新颖的描述。phi-LSTM 模型生成了更多词汇表内的唯一词，表明词汇多样性更佳。尽管输出较短，phi-LSTM 模型在所有数据集上均取得了更高的唯一性与新颖性指标。

本研究在多个图像描述数据集上评估了所提出的 phi-LSTM 及基于短语的模型与基线序列方法的对比，以检验结构效率、词汇多样性与语义准确性。通过分析描述截断与层次化解码机制，本研究验证了所提架构在生成更短输出的同时，显著降低了生成不一致性。定性评估进一步表明，该模型持续产出更多唯一且新颖的描述，在描述对象与属性时准确性增强，有效优先使用低频词汇而非依赖常见训练数据模式。最终结果表明，层次化解码策略成功实现了简洁输出、更丰富词汇多样性与更精准语义描述之间的平衡。

一句话总结

核心贡献

本文提出了一种基于短语的层次化长短期记忆（phi-LSTM）模型，通过显式建模自然语言的时间层次结构来生成图像描述。
该架构采用两级解码流程，底层短语解码器提取变长名词短语，上层缩略句解码器生成精简大纲，两者在推理阶段结合以形成完整描述。
在 Flickr8k、Flickr30k 和 MS-COCO 数据集上的实验表明，该框架的性能与当前最先进方法相当或更优，同时持续生成更具新颖性和语义更丰富的图像描述。

引言

方法

实验

一句话总结

核心贡献

本文提出了一种基于短语的层次化长短期记忆（phi-LSTM）模型，通过显式建模自然语言的时间层次结构来生成图像描述。
该架构采用两级解码流程，底层短语解码器提取变长名词短语，上层缩略句解码器生成精简大纲，两者在推理阶段结合以形成完整描述。
在 Flickr8k、Flickr30k 和 MS-COCO 数据集上的实验表明，该框架的性能与当前最先进方法相当或更优，同时持续生成更具新颖性和语义更丰富的图像描述。

使用 TensorFlow 和 Keras 进行图像字幕生成

摘要

一句话总结

核心贡献

引言

方法

实验

用 AI 构建 AI

HyperAI Newsletters

使用 TensorFlow 和 Keras 进行图像字幕生成

摘要

一句话总结

核心贡献

引言

方法

实验

用 AI 构建 AI

HyperAI Newsletters

使用 TensorFlow 和 Keras 进行图像字幕生成

摘要

一句话总结

核心贡献

引言

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Command Palette

使用 TensorFlow 和 Keras 进行图像字幕生成

摘要

一句话总结

核心贡献

引言

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Command Palette

使用 TensorFlow 和 Keras 进行图像字幕生成

摘要

一句话总结

核心贡献

引言

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Command Palette

使用 TensorFlow 和 Keras 进行图像字幕生成

摘要

一句话总结

核心贡献

引言

方法

实验

用 AI 构建 AI

HyperAI Newsletters