
摘要
视觉可操作性定位旨在从图像或视频中分割出所有可能的人与物体之间的交互区域,这对于许多应用(如机器人抓取和动作识别)具有重要意义。然而,现有的方法主要依赖于物体的外观特征来分割图像中的每个区域,这面临以下两个问题:(i) 物体中存在多个可能的交互区域;(ii) 同一物体区域内可能存在多种可能的人类交互。为了解决这些问题,我们提出了一种手辅助的可操作性定位网络(Hand-aided Affordance Grounding Network, HAGNet),该网络利用演示视频中手的位置和动作提供的辅助线索来消除多重可能性,并更好地定位物体中的交互区域。具体而言,HAGNet 具有双分支结构,用于处理演示视频和物体图像。对于视频分支,我们引入了手辅助注意力机制,以增强每帧视频中手周围的区域,然后使用 LSTM 网络聚合动作特征。对于物体分支,我们引入了一个语义增强模块(Semantic Enhancement Module, SEM),使网络能够根据动作类别关注物体的不同部分,并利用蒸馏损失对齐物体分支与视频分支的输出特征,从而将视频分支中的知识传递到物体分支。在两个具有挑战性的数据集上的定量和定性评估表明,我们的方法在可操作性定位方面达到了最先进的结果。源代码将向公众开放。