7 个月前

统一多模态

自然语言处理

自然语言处理

Andrej Karpathy Li Fei-Fei

摘要

我们提出了一种生成图像及其区域自然语言描述的模型。该方法利用包含图像及其句子描述的数据集来学习语言和视觉数据之间的跨模态对应关系。我们的对齐模型基于一种新颖的组合，包括在图像区域上应用的卷积神经网络（Convolutional Neural Networks）、在句子上应用的双向循环神经网络（bidirectional Recurrent Neural Networks）以及一个通过多模态嵌入将两种模态对齐的结构化目标函数。随后，我们描述了一种多模态循环神经网络架构，该架构利用推断出的对齐关系来学习生成新的图像区域描述。我们展示了我们的对齐模型在Flickr8K、Flickr30K和MSCOCO数据集上的检索实验中取得了最先进的结果。此外，我们还证明了生成的描述在完整图像和一个新的区域级注释数据集上显著优于检索基线方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

统一多模态

自然语言处理

自然语言处理

Andrej Karpathy Li Fei-Fei

摘要

我们提出了一种生成图像及其区域自然语言描述的模型。该方法利用包含图像及其句子描述的数据集来学习语言和视觉数据之间的跨模态对应关系。我们的对齐模型基于一种新颖的组合，包括在图像区域上应用的卷积神经网络（Convolutional Neural Networks）、在句子上应用的双向循环神经网络（bidirectional Recurrent Neural Networks）以及一个通过多模态嵌入将两种模态对齐的结构化目标函数。随后，我们描述了一种多模态循环神经网络架构，该架构利用推断出的对齐关系来学习生成新的图像区域描述。我们展示了我们的对齐模型在Flickr8K、Flickr30K和MSCOCO数据集上的检索实验中取得了最先进的结果。此外，我们还证明了生成的描述在完整图像和一个新的区域级注释数据集上显著优于检索基线方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供