7 个月前

计算机视觉

Bryan A. Plummer Liwei Wang Chris M. Cervantes Juan C. Caicedo Julia Hockenmaier Svetlana Lazebnik

摘要

Flickr30k 数据集已成为基于句子的图像描述的标准基准。本文介绍了 Flickr30k Entities，该数据集在原有的 158,000 条 Flickr30k 标注基础上增加了 244,000 条共指链（coreference chains），这些共指链将同一图像的不同标注中提到的相同实体进行链接，并将其与 276,000 个手动标注的边界框关联起来。此类标注对于自动图像描述和基于视觉的语言理解的持续进展至关重要。它们使我们能够定义一个新的基准，用于在图像中定位文本实体提及。我们为这一任务提供了一个强大的基线模型，该模型结合了图像-文本嵌入、常见物体检测器、颜色分类器以及偏向选择较大物体的特点。尽管我们的基线模型在准确性上与更复杂的最先进模型相当，但我们发现其优势难以直接转化为诸如图像-句子检索等任务的改进，从而突显了当前方法的局限性和进一步研究的必要性。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

计算机视觉

Bryan A. Plummer Liwei Wang Chris M. Cervantes Juan C. Caicedo Julia Hockenmaier Svetlana Lazebnik

摘要

Flickr30k 数据集已成为基于句子的图像描述的标准基准。本文介绍了 Flickr30k Entities，该数据集在原有的 158,000 条 Flickr30k 标注基础上增加了 244,000 条共指链（coreference chains），这些共指链将同一图像的不同标注中提到的相同实体进行链接，并将其与 276,000 个手动标注的边界框关联起来。此类标注对于自动图像描述和基于视觉的语言理解的持续进展至关重要。它们使我们能够定义一个新的基准，用于在图像中定位文本实体提及。我们为这一任务提供了一个强大的基线模型，该模型结合了图像-文本嵌入、常见物体检测器、颜色分类器以及偏向选择较大物体的特点。尽管我们的基线模型在准确性上与更复杂的最先进模型相当，但我们发现其优势难以直接转化为诸如图像-句子检索等任务的改进，从而突显了当前方法的局限性和进一步研究的必要性。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供