6 个月前

多模态表征

Ziqi Zhang Yaya Shi Chunfeng Yuan Bing Li Peijin Wang Weiming Hu Zhengjun Zha

摘要

充分挖掘视觉与语言信息对于视频字幕生成任务至关重要。现有模型在视觉表征方面存在不足，主要源于对物体之间交互关系的忽视；同时，由于长尾分布问题，模型在训练内容相关词汇时也缺乏充分的优化。本文提出了一套完整的视频字幕生成系统，包含一种新型模型架构与一种高效的训练策略。具体而言，我们提出一种基于物体关系图（Object Relational Graph, ORG）的编码器，能够捕捉更精细的物体间交互特征，从而丰富视觉表征能力。与此同时，我们设计了一种教师推荐学习（Teacher-Recommended Learning, TRL）方法，充分利用外部语言模型（External Language Model, ELM）所具备的丰富语言知识，将其有效融入字幕生成模型中。该方法通过ELM生成语义上更相似的词候选，扩展了训练过程中使用的真实标签词，有效缓解了长尾分布带来的挑战。在MSVD、MSR-VTT和VATEX三个主流基准数据集上的实验结果表明，所提出的ORG-TRL系统取得了当前最优的性能表现。大量消融实验与可视化分析进一步验证了所提方法的有效性与合理性。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

多模态表征

Ziqi Zhang Yaya Shi Chunfeng Yuan Bing Li Peijin Wang Weiming Hu Zhengjun Zha

摘要

充分挖掘视觉与语言信息对于视频字幕生成任务至关重要。现有模型在视觉表征方面存在不足，主要源于对物体之间交互关系的忽视；同时，由于长尾分布问题，模型在训练内容相关词汇时也缺乏充分的优化。本文提出了一套完整的视频字幕生成系统，包含一种新型模型架构与一种高效的训练策略。具体而言，我们提出一种基于物体关系图（Object Relational Graph, ORG）的编码器，能够捕捉更精细的物体间交互特征，从而丰富视觉表征能力。与此同时，我们设计了一种教师推荐学习（Teacher-Recommended Learning, TRL）方法，充分利用外部语言模型（External Language Model, ELM）所具备的丰富语言知识，将其有效融入字幕生成模型中。该方法通过ELM生成语义上更相似的词候选，扩展了训练过程中使用的真实标签词，有效缓解了长尾分布带来的挑战。在MSVD、MSR-VTT和VATEX三个主流基准数据集上的实验结果表明，所提出的ORG-TRL系统取得了当前最优的性能表现。大量消融实验与可视化分析进一步验证了所提方法的有效性与合理性。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供