
最近、視覚・言語事前学習(Vision-and-language pre-training: VLP)モデルの注目が高まっている。特定のデータセット上でファインチューニングを行うことで、さまざまなタスクにおいて顕著な性能向上が報告されている。しかし、VLPモデルのフルファインチューニングは、膨大な計算リソースを消費するばかりでなく、環境への影響も大きい。さらに、リモートセンシング(Remote Sensing: RS)データは継続的に更新されるため、実用的な応用においてフルファインチューニングは現実的ではない。こうした課題に対処するため、本研究では、自然画像領域からリモートセンシング領域への視覚・言語知識を効果的かつ効率的に転移するためのパラメータ効率的転移学習(Parameter-Efficient Transfer Learning: PETL)手法を検討し、画像・テキスト検索タスクに適用する。本研究の主な貢献は以下の通りである。1) リモートセンシング画像・テキスト検索(RS Image-Text Retrieval: RSITR)タスク向けに、事前学習済みCLIPモデル、マルチモーダルリモートセンシングアダプタ、およびハイブリッドマルチモーダルコントラスティブ(Hybrid Multi-modal Contrastive: HMMC)学習目的を組み合わせた新規かつ洗練されたPETLフレームワークを構築した。2) RSデータに特有のモーダル内類似性の高さという課題に対処するため、シンプルでありながら効果的なHMMC損失関数を設計した。3) PETLに基づくRS画像・テキスト検索に関する包括的な実証的分析を提供した。実験結果から、提案手法が実用応用において有望であり、大きな潜在能力を有することが示された。4) RSITRタスクにおいて、多数の最先端PETL手法をベンチマークした。提案モデルのトレーニングパラメータ数はわずか0.16Mであり、フルファインチューニングと比較して98.9%のパラメータ削減を実現し、トレーニングコストの大幅な削減を可能にした。また、従来手法に比べて7~13%の性能向上を達成し、フルファインチューニングと同等またはそれ以上の性能を発揮した。本研究は、リモートセンシング分野における視覚・言語タスクに新たな視点と実用的な知見を提供するものである。