6ヶ月前

概要

マルチイメージスーパーレゾリューション（MISR）は、リモートセンシング分野における最も有望な研究方向の一つとして、衛星市場においても不可欠な技術となっています。衛星によって取得された画像シーケンスは、多くの視点と長期間にわたる時間的範囲を持つことが多く、複数の低解像度画像を統合して詳細な高解像度画像を生成するという課題が生じます。しかし、現在の深層学習に基づく大多数のMISR手法は、複数の画像を十分に活用できていません。特に、時間的相関が弱い画像シーケンスに対して適応できない融合モジュールを採用しているため、性能に限界があります。こうした問題に対処するため、本研究では新たなエンド・ツー・エンドフレームワークであるTR-MISRを提案します。本フレームワークは、残差ブロックに基づくエンコーダ、トランスフォーマーを活用した融合モジュール、およびサブピクセル畳み込みに基づくデコーダの3つの部分から構成されています。特に、複数の特徴マップをベクトルに再配置することで、融合モジュールは異なる衛星画像における同一領域に対して動的アテンションを同時に割り当てることが可能になります。さらに、TR-MISRは詳細な復元を最大化するために、これらのベクトルを統合するための追加の学習可能な埋め込みベクトルを導入しています。本研究は、初めてトランスフォーマーをMISRタスクに適用した上で、画像パッチ間の空間的関係を無視することで、トランスフォーマーの学習難易度を顕著に低減しました。PROBA-V Kelvinデータセットを用いた広範な実験により、提案モデルの優位性が実証され、トランスフォーマーが他の低レベルビジョンタスクにおいても有効な手法となる可能性を示唆しています。

ソースPDF コードを表示