17 天前

PhotoChat:一个包含照片分享行为的人类对话数据集,用于联合图像-文本建模

Xiaoxue Zang, Lijuan Liu, Maria Wang, Yang Song, Hao Zhang, Jindong Chen
PhotoChat:一个包含照片分享行为的人类对话数据集,用于联合图像-文本建模
摘要

我们提出一个全新的真人对话数据集——PhotoChat,这是首个聚焦于在线消息交流中图片分享行为的公开数据集。PhotoChat包含12,000组对话,每组对话均配有一张在交流过程中实际分享的用户图片。基于该数据集,我们提出了两项任务,以推动图像-文本建模研究的发展:一是图片分享意图预测任务,旨在预测对话者在下一轮对话中是否有分享图片的意图;二是图片检索任务,即根据对话上下文从候选图片中检索最相关的一张。此外,针对这两项任务,我们采用当前最先进的模型构建了基线模型,并报告了其基准性能表现。其中,最优的图片检索模型在1000个候选图片中达到了10.4%的Recall@1指标,而最佳的图片分享意图预测模型则取得了58.1%的F1分数。这些结果表明,PhotoChat所呈现的问题既具有现实意义,又具备相当的挑战性。我们已公开发布PhotoChat数据集,以促进该领域未来的研究工作。