2 个月前

从叙述性指令视频中进行无监督学习

Jean-Baptiste Alayrac; Piotr Bojanowski; Nishant Agrawal; Josef Sivic; Ivan Laptev; Simon Lacoste-Julien
从叙述性指令视频中进行无监督学习
摘要

本文旨在解决从一系列带有解说的指令视频中自动学习完成特定任务(如更换汽车轮胎)的主要步骤的问题。本文的贡献有三个方面。首先,我们开发了一种新的无监督学习方法,该方法充分利用了输入视频及其相关解说之间的互补性。该方法解决了两个聚类问题,一个在文本上,另一个在视频上,这两个问题依次进行并通过联合约束相互关联,从而在两种模态中获得单一连贯的步骤序列。其次,我们收集并标注了一个具有挑战性的现实世界指令视频数据集,这些视频来自互联网。该数据集包含约80万帧图像,涵盖了五项不同任务,其中包括复杂的人与物体交互,并且拍摄环境多样,包括室内和室外场景。最后,通过实验验证了所提出的方法能够在无监督的情况下自动发现完成任务的主要步骤,并在输入视频中定位这些步骤。

从叙述性指令视频中进行无监督学习 | 最新论文 | HyperAI超神经