3 个月前

RLIP:用于人-物体交互检测的关系型语言-图像预训练

Hangjie Yuan, Jianwen Jiang, Samuel Albanie, Tao Feng, Ziyuan Huang, Dong Ni, Mingqian Tang
RLIP:用于人-物体交互检测的关系型语言-图像预训练
摘要

人体-物体交互(Human-Object Interaction, HOI)检测任务旨在对人类与其环境之间的精细视觉交互进行解析,从而支持广泛的应用场景。以往的研究已证明,有效的架构设计以及相关视觉与语义线索的融合能够显著提升HOI检测的准确性。然而,现有方法在该任务上对合适预训练策略的设计方面仍缺乏深入探索。为弥补这一空白,本文提出一种名为关系型语言-图像预训练(Relational Language-Image Pre-training, RLIP)的对比学习预训练策略,该策略同时利用实体描述与关系描述信息。为充分发挥此类预训练的有效性,本文做出三项关键技术贡献:(1)提出一种新型并行实体检测与顺序关系推理(Parallel entity detection and Sequential relation inference, ParSe)架构,使得在整体优化的预训练过程中能够同时利用实体与关系的文本描述;(2)设计一种合成数据生成框架——标签序列扩展(Label Sequence Extension),用于在每个小批量(minibatch)中扩展语言数据的规模,增强语义多样性;(3)引入两种机制以应对标注模糊性问题:关系质量标签(Relation Quality Labels)与关系伪标签(Relation Pseudo-Labels),用以缓解预训练数据中模糊或噪声样本对模型学习的负面影响。通过大量实验验证,本文所提出的RLIP-ParSe框架在零样本(zero-shot)、少样本(few-shot)及微调(fine-tuning)场景下的HOI检测性能均显著提升,同时增强了模型对噪声标注的鲁棒性。相关代码将开源,地址为:https://github.com/JacobYuan7/RLIP。