HyperAIHyperAI

Command Palette

Search for a command to run...

パラメータ効率的な転移学習によるリモートセンシング画像・テキスト検索

Yuan Yuan Yang Zhan Zhitong Xiong

概要

最近、視覚・言語事前学習(Vision-and-language pre-training: VLP)モデルの注目が高まっている。特定のデータセット上でファインチューニングを行うことで、さまざまなタスクにおいて顕著な性能向上が報告されている。しかし、VLPモデルのフルファインチューニングは、膨大な計算リソースを消費するばかりでなく、環境への影響も大きい。さらに、リモートセンシング(Remote Sensing: RS)データは継続的に更新されるため、実用的な応用においてフルファインチューニングは現実的ではない。こうした課題に対処するため、本研究では、自然画像領域からリモートセンシング領域への視覚・言語知識を効果的かつ効率的に転移するためのパラメータ効率的転移学習(Parameter-Efficient Transfer Learning: PETL)手法を検討し、画像・テキスト検索タスクに適用する。本研究の主な貢献は以下の通りである。1) リモートセンシング画像・テキスト検索(RS Image-Text Retrieval: RSITR)タスク向けに、事前学習済みCLIPモデル、マルチモーダルリモートセンシングアダプタ、およびハイブリッドマルチモーダルコントラスティブ(Hybrid Multi-modal Contrastive: HMMC)学習目的を組み合わせた新規かつ洗練されたPETLフレームワークを構築した。2) RSデータに特有のモーダル内類似性の高さという課題に対処するため、シンプルでありながら効果的なHMMC損失関数を設計した。3) PETLに基づくRS画像・テキスト検索に関する包括的な実証的分析を提供した。実験結果から、提案手法が実用応用において有望であり、大きな潜在能力を有することが示された。4) RSITRタスクにおいて、多数の最先端PETL手法をベンチマークした。提案モデルのトレーニングパラメータ数はわずか0.16Mであり、フルファインチューニングと比較して98.9%のパラメータ削減を実現し、トレーニングコストの大幅な削減を可能にした。また、従来手法に比べて7~13%の性能向上を達成し、フルファインチューニングと同等またはそれ以上の性能を発揮した。本研究は、リモートセンシング分野における視覚・言語タスクに新たな視点と実用的な知見を提供するものである。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
パラメータ効率的な転移学習によるリモートセンシング画像・テキスト検索 | 記事 | HyperAI超神経