11 天前

UniRGB-IR:通过适配器微调实现可见光-红外语义任务的统一框架

Maoxun Yuan, Bo Cui, Tianyi Zhao, Jiayi Wang, Shan Fu, Xue Yang, Xingxing Wei
UniRGB-IR:通过适配器微调实现可见光-红外语义任务的统一框架
摘要

可见光(RGB)与红外(IR)图像的语义分析因其在低光照及恶劣天气等复杂条件下展现出更高的准确性和鲁棒性,近年来受到广泛关注。然而,由于大规模红外图像数据集上缺乏预训练的基础模型,现有方法通常需设计特定任务的网络架构,并直接在其RGB-IR语义关联数据集上微调基于RGB的预训练基础模型,这导致模型可扩展性差且泛化能力有限。为解决上述问题,本文提出UniRGB-IR——一种面向RGB-IR语义任务的可扩展、高效框架。该框架引入一种新颖的适配器机制,能够有效将丰富的多模态特征融入预训练的基于RGB的基础模型中。本框架由三个核心组件构成:一个视觉Transformer(ViT)基础模型、一个多模态特征池化(Multi-modal Feature Pool, MFP)模块,以及一个补充特征注入(Supplementary Feature Injector, SFI)模块。其中,MFP与SFI模块协同工作,作为适配器,有效补充ViT模型所提取的特征,融合上下文感知的多尺度信息。在训练过程中,我们冻结整个基础模型以保留其先验知识,仅对MFP和SFI模块进行优化。为进一步验证所提框架的有效性,本文采用ViT-Base作为预训练基础模型,开展了大量实验。在多种RGB-IR语义任务上的实验结果表明,本方法在性能上达到当前最优水平。相关源代码与实验结果已开源,地址为:https://github.com/PoTsui99/UniRGB-IR.git。

UniRGB-IR:通过适配器微调实现可见光-红外语义任务的统一框架 | 最新论文 | HyperAI超神经