1 天前

弱监督可操作性定位中的选择性对比学习

WonJun Moon, Hyun Seok Seong, Jae-Pil Heo
弱监督可操作性定位中的选择性对比学习
摘要

使一个实体与物体进行交互,需要准确识别能够支持特定动作的部件。弱监督可操作性定位(Weakly Supervised Affordance Grounding, WSAG)旨在模拟人类通过第三人称示范进行学习的过程——人类能够直观理解物体的功能性部件,而无需依赖像素级标注。为实现这一目标,通常采用跨不同视角图像的共享分类器,并结合包含部件发现过程的蒸馏策略来学习定位。然而,由于与可操作性相关的部件并不总是易于区分,现有模型主要依赖分类任务,往往聚焦于与可操作性无关的、具有类别特异性的常见模式。为克服这一局限,我们摒弃了孤立的部件级学习方式,提出了一种选择性原型(selective prototypical)与像素级对比(pixel contrastive)联合目标函数,能够根据可用信息的粒度,在部件级和物体级自适应地学习与可操作性相关的关键线索。首先,我们利用CLIP模型在第一人称视角(以物体为中心)和第三人称视角(以示例为中心)的图像中识别出与特定动作相关的物体。随后,通过交叉比对两种互补视角中发现的物体,我们精准挖掘出每种视角下的部件级可操作性线索。通过持续学习区分与可操作性相关的区域与无关的背景上下文,我们的方法能够有效将模型激活从无关区域引导至具有实际意义的可操作性线索。实验结果验证了所提方法的有效性。代码已开源,地址为:github.com/hynnsk/SelectiveCL。