2 个月前

使用wikiHow进行视觉目标步骤推理

Yue Yang; Artemis Panagopoulou; Qing Lyu; Li Zhang; Mark Yatskar; Chris Callison-Burch
使用wikiHow进行视觉目标步骤推理
摘要

理解完成目标所需的一系列步骤有助于人工智能系统对人类活动进行推理。以往的自然语言处理(NLP)研究已经探讨了文本中的目标-步骤推断任务。本文引入了视觉上的类比任务。我们提出了视觉目标-步骤推断(VGSI)任务,其中模型被给予一个文本目标,并需要从四个图像中选择一个代表实现该目标的合理步骤的图像。通过从wikiHow收集的新数据集,该数据集包含772,277张表示人类行为的图像,我们展示了我们的任务对于当前最先进的多模态模型来说具有挑战性。此外,从我们的数据中学到的多模态表示可以有效地迁移到其他数据集,如HowTo100M,使VGSI的准确性提高15%至20%。我们的任务将促进对程序性事件的多模态推理。

使用wikiHow进行视觉目标步骤推理 | 最新论文 | HyperAI超神经