
視覚・言語事前学習(Visual and Language Pretraining, VLP)の発展に伴い、多くの下流タスクが「事前学習+微調整(fine-tuning)」の枠組みを採用するようになっている。このアプローチは、多モーダルな下流タスクにおいて高い潜在性を示しているものの、リモートセンシング分野への適用にはいくつかの課題が存在する。特に、同モーダルな埋め込み(embeddings)が集束(clustering)しやすい傾向が、効率的な転移学習の実現を妨げている。この問題に対処するため、本研究では下流タスクにおける多モーダル転移学習の目的を統一的な視点から再検討し、3つの異なる最適化目標に基づいて最適化プロセスを再考した。その結果、「調和的転移学習とモーダル同期(Harmonized Transfer Learning and Modality Alignment, HarMA)」という新手法を提案する。HarMAは、タスク制約の満足、モーダル同期、単一モーダルの均一性確保の3つを同時に達成しつつ、パラメータ効率的な微調整によって学習コストを最小限に抑える特徴を持つ。特に、外部データの追加学習を必要とせずに、リモートセンシング分野における2つの代表的な多モーダル検索タスクで最先端の性能を達成した。実験結果から、HarMAはわずかに調整可能なパラメータ数にとどまりながら、完全微調整モデルと比較しても競争力のある、あるいは優れた性能を発揮することが明らかになった。その構成の簡潔さから、HarMAは既存のほとんどすべての多モーダル事前学習モデルに容易に統合可能である。本手法が、大規模モデルの幅広い下流タスクへの効率的活用を促進し、リソース消費を著しく削減することを期待している。コードは以下のURLで公開されている:https://github.com/seekerhuang/HarMA。