16 天前

RLIPv2:关系型语言-图像预训练的快速扩展

Hangjie Yuan, Shiwei Zhang, Xiang Wang, Samuel Albanie, Yining Pan, Tao Feng, Jianwen Jiang, Dong Ni, Yingya Zhang, Deli Zhao
RLIPv2:关系型语言-图像预训练的快速扩展
摘要

关系型语言-图像预训练(Relational Language-Image Pre-training, RLIP)旨在将视觉表征与关系型文本对齐,从而提升计算机视觉任务中的关系推理能力。然而,受限于RLIPv1架构收敛速度缓慢以及现有场景图数据集的规模有限,对RLIPv1进行规模化扩展面临较大挑战。本文提出RLIPv2,一种具备快速收敛特性的模型,能够实现基于大规模伪标注场景图数据的关系型预训练扩展。为实现高效扩展,RLIPv2引入了非对称语言-图像融合(Asymmetric Language-Image Fusion, ALIF)机制,该机制通过稀疏化语言编码层,促进更早且更深层次的门控跨模态融合。ALIF在显著缩短预训练与微调时间的同时,实现了与RLIPv1相当甚至更优的性能表现。为获取大规模场景图数据,本文通过引入一个描述生成器(如BLIP)和专门设计的关系标注器(Relation Tagger),将现有的目标检测数据集扩展为包含自由形式关系标签的数据集。关系标注器负责将BLIP生成的关系文本准确分配给图像中的区域对,从而支持更大规模的关系型预训练。在人体-物体交互检测(Human-Object Interaction Detection)与场景图生成(Scene Graph Generation)任务上开展的大量实验表明,RLIPv2在全微调、少样本及零样本三种设置下均取得了当前最优的性能表现。特别地,最大的RLIPv2模型在HICO-DET数据集上无需任何微调即达到23.29 mAP,仅使用1%的训练数据即可获得32.22 mAP,而使用100%数据时更提升至45.09 mAP。相关代码与模型已公开发布于:https://github.com/JacobYuan7/RLIPv2。

RLIPv2:关系型语言-图像预训练的快速扩展 | 最新论文 | HyperAI超神经