11日前

UniRGB-IR:アダプタチューニングを活用した可視-赤外線セマンティックタスクのための統一フレームワーク

Maoxun Yuan, Bo Cui, Tianyi Zhao, Jiayi Wang, Shan Fu, Xue Yang, Xingxing Wei
UniRGB-IR:アダプタチューニングを活用した可視-赤外線セマンティックタスクのための統一フレームワーク
要約

可視(RGB)画像と赤外線(IR)画像における意味解析は、低照度や悪天候など困難な条件下でも高い精度と頑健性を発揮する点から、近年注目を集めている。しかし、大規模な赤外線画像データセットに対する事前学習済みの基礎モデルが不足しているため、従来の手法はタスク固有のフレームワークを設計し、RGB-IR意味関連データセット上で事前学習済みの基礎モデルを直接微調整する方法を採用している。このアプローチはスケーラビリティに劣り、一般化性能も限られている。こうした課題を解決するために、本研究ではRGB-IR意味タスク向けにスケーラブルかつ効率的なフレームワーク「UniRGB-IR」を提案する。本フレームワークは、豊富なマルチモーダル特徴を事前学習済みのRGBベースの基礎モデルに効果的に統合するための新規アダプタ機構を導入している。提案手法は、視覚変換器(Vision Transformer, ViT)の基礎モデル、マルチモーダル特徴プール(Multi-modal Feature Pool, MFP)モジュール、補助特徴注入器(Supplementary Feature Injector, SFI)モジュールの3つの主要構成要素から構成される。MFPモジュールとSFIモジュールは相互に協働する形でアダプタとして機能し、ViTの特徴に文脈的な多スケール特徴を効果的に補完する。学習プロセスにおいては、基礎モデル全体を固定し、既存の知識を保持した上で、MFPおよびSFIモジュールのみを最適化する。さらに、本フレームワークの有効性を検証するため、事前学習済み基礎モデルとしてViT-Baseを採用し、多様なRGB-IR意味タスクにおける広範な実験を実施した。実験結果から、本手法が各種タスクで最先端の性能を達成できることを示した。ソースコードおよび実験結果は、https://github.com/PoTsui99/UniRGB-IR.git にて公開されている。