15日前

パラメータ効率的な転移学習によるリモートセンシング画像・テキスト検索

Yuan Yuan, Yang Zhan, Zhitong Xiong

要約

最近、視覚・言語事前学習（Vision-and-language pre-training: VLP）モデルの注目が高まっている。特定のデータセット上でファインチューニングを行うことで、さまざまなタスクにおいて顕著な性能向上が報告されている。しかし、VLPモデルのフルファインチューニングは、膨大な計算リソースを消費するばかりでなく、環境への影響も大きい。さらに、リモートセンシング（Remote Sensing: RS）データは継続的に更新されるため、実用的な応用においてフルファインチューニングは現実的ではない。こうした課題に対処するため、本研究では、自然画像領域からリモートセンシング領域への視覚・言語知識を効果的かつ効率的に転移するためのパラメータ効率的転移学習（Parameter-Efficient Transfer Learning: PETL）手法を検討し、画像・テキスト検索タスクに適用する。本研究の主な貢献は以下の通りである。1) リモートセンシング画像・テキスト検索（RS Image-Text Retrieval: RSITR）タスク向けに、事前学習済みCLIPモデル、マルチモーダルリモートセンシングアダプタ、およびハイブリッドマルチモーダルコントラスティブ（Hybrid Multi-modal Contrastive: HMMC）学習目的を組み合わせた新規かつ洗練されたPETLフレームワークを構築した。2) RSデータに特有のモーダル内類似性の高さという課題に対処するため、シンプルでありながら効果的なHMMC損失関数を設計した。3) PETLに基づくRS画像・テキスト検索に関する包括的な実証的分析を提供した。実験結果から、提案手法が実用応用において有望であり、大きな潜在能力を有することが示された。4) RSITRタスクにおいて、多数の最先端PETL手法をベンチマークした。提案モデルのトレーニングパラメータ数はわずか0.16Mであり、フルファインチューニングと比較して98.9％のパラメータ削減を実現し、トレーニングコストの大幅な削減を可能にした。また、従来手法に比べて7～13％の性能向上を達成し、フルファインチューニングと同等またはそれ以上の性能を発揮した。本研究は、リモートセンシング分野における視覚・言語タスクに新たな視点と実用的な知見を提供するものである。