17 天前

复兴上下文:基于多模态知识图谱的相机陷阱物种分类作为链接预测

Vardaan Pahuja, Weidi Luo, Yu Gu, Cheng-Hao Tu, Hong-You Chen, Tanya Berger-Wolf, Charles Stewart, Song Gao, Wei-Lun Chao, Yu Su
复兴上下文:基于多模态知识图谱的相机陷阱物种分类作为链接预测
摘要

相机陷阱是动物生态学中用于生物多样性监测与保护的重要工具。然而,其实际应用受限于对新出现或未见过地点的泛化能力较差等问题。相机陷阱图像通常与多种多样的上下文信息相关联,这些上下文可能以不同模态的形式存在。在本研究中,我们利用与相机陷阱图像相关联的结构化上下文信息,以提升物种分类任务在分布外(out-of-distribution)场景下的泛化能力。例如,一张野生动物图像可关联其拍摄时间、地点信息,以及关于该物种的结构化生物知识。尽管现有研究常忽视此类上下文信息,但将其融入模型有助于改善图像理解,例如缓解数据稀缺问题并增强模型泛化性能。然而,如何有效将异构的多模态上下文信息融合至视觉领域,仍是一项具有挑战性的任务。为此,我们提出一种新颖的框架,将物种分类建模为多模态知识图谱(Knowledge Graph, KG)中的链接预测任务。该框架实现了对多种异构上下文信息的无缝集成,从而支持更 robust 的视觉识别。我们在 iWildCam2020-WILDS 和 Snapshot Mountain Zebra 两个数据集上进行了分布外物种分类实验,结果表明,该方法在性能上达到与当前最先进方法相当的水平。此外,该框架显著提升了对低频物种的样本效率,增强了对代表性不足物种的识别能力。