2 个月前

基于视频的人-物交互热点挖掘

Tushar Nagarajan; Christoph Feichtenhofer; Kristen Grauman
基于视频的人-物交互热点挖掘
摘要

学习如何与物体互动是实现具身视觉智能的重要一步,但现有的技术方法存在严重的监督或感知需求问题。我们提出了一种直接从视频中学习人类-物体互动“热点”的方法。与将可操作性视为一种手动监督的语义分割任务不同,我们的方法通过观察真实的人类行为视频并预测可能的动作来学习互动。对于一张新的图像或视频,我们的模型可以推断出一个空间热点图,指示在潜在的互动中物体将如何被操纵——即使该物体当前处于静止状态。通过第一人称和第三人称视频的结果,我们展示了将可操作性基于真实的人类-物体互动的价值。我们的弱监督热点不仅在性能上与强监督的可操作性方法相当,而且还能预测新型物体类别中的互动行为。

基于视频的人-物交互热点挖掘 | 最新论文 | HyperAI超神经