
摘要
发现图像中的社会关系可以使机器更好地解释人类的行为。然而,由于视觉内容和社会关系领域之间存在显著差异,自动识别图像中的社会关系是一项具有挑战性的任务。现有的研究分别处理了诸如面部表情、身体外观和上下文物体等各种特征,因此无法全面捕捉多粒度语义,例如场景、人物区域线索以及人物与物体之间的互动。为了弥合这一领域的差距,我们提出了一种用于从图像中识别社会关系的多粒度推理框架。该框架分别从整个场景和人物及物体的区域学习全局知识和中层细节。最重要的是,我们探索了人物的细粒度姿态关键点,以发现人物与物体之间的互动。具体而言,提出了姿态引导的人物-物体图(Person-Object Graph)和人物-姿态图(Person-Pose Graph),前者用于建模人物对物体的动作,后者用于建模成对人物之间的互动。基于这些图结构,通过图卷积网络进行社会关系推理。最后,将全局特征和推理知识整合为一个综合表示,用于社会关系识别。在两个公开数据集上的大量实验表明了所提出的框架的有效性。