6 个月前

Jordi Pont-Tuset Jasper Uijlings Soravit Changpinyo Radu Soricut Vittorio Ferrari

摘要

我们提出了一种名为“局部化叙述”（Localized Narratives）的新型多模态图像标注形式，旨在建立视觉与语言之间的紧密联系。我们要求标注者在用语音描述图像的同时，将鼠标悬停在所描述的图像区域上。由于语音与鼠标指针位置保持同步，我们能够对描述中的每一个词语进行精确的视觉定位。这种密集的视觉定位以每个词语对应的鼠标轨迹片段形式呈现，是本数据集的独特特征。我们使用该方法对849,000张图像进行了标注，涵盖完整的COCO、Flickr30k和ADE20K数据集，以及671,000张Open Images数据集中的图像，所有数据均对公众开放。我们对这些标注进行了全面分析，结果表明其具有多样性、准确性，并且标注效率较高。此外，我们还在可控图像字幕生成任务中验证了其实际应用价值。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

Jordi Pont-Tuset Jasper Uijlings Soravit Changpinyo Radu Soricut Vittorio Ferrari

摘要

我们提出了一种名为“局部化叙述”（Localized Narratives）的新型多模态图像标注形式，旨在建立视觉与语言之间的紧密联系。我们要求标注者在用语音描述图像的同时，将鼠标悬停在所描述的图像区域上。由于语音与鼠标指针位置保持同步，我们能够对描述中的每一个词语进行精确的视觉定位。这种密集的视觉定位以每个词语对应的鼠标轨迹片段形式呈现，是本数据集的独特特征。我们使用该方法对849,000张图像进行了标注，涵盖完整的COCO、Flickr30k和ADE20K数据集，以及671,000张Open Images数据集中的图像，所有数据均对公众开放。我们对这些标注进行了全面分析，结果表明其具有多样性、准确性，并且标注效率较高。此外，我们还在可控图像字幕生成任务中验证了其实际应用价值。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供