自己教師付き音声視覚表現学習によるリモートセンシングデータへの応用

現在の多くの深層学習アプローチは、ImageNetなどの大規模データセットで事前学習されたバックボーンネットワークを広く活用しており、その後、特定のタスクに適応するためのファインチューニングが行われる。しかし、リモートセンシング分野では、類似した大規模なアノテーション付きデータセットの不足と、センシングプラットフォームの多様性が、こうした進展を阻害している。本研究では、リモートセンシングにおける事前学習済みバックボーンネットワークの可用性を高めるために、自己教師あり学習に基づく事前学習手法を提案する。この手法は、地理タグ付きの音声録音とリモートセンシング画像の間の対応関係を活用し、完全にラベルフリーな形で学習を実現する。これにより、手作業によるアノテーションの煩雑さを排除できる。本研究では、世界中の地点で同時収集された航空画像と音声サンプルから構成される「SoundingEarthデータセット」を導入する。このデータセットを用いて、ResNetモデルを両モダリティ(視覚的・聴覚的)のサンプルを共通の埋め込み空間にマッピングするように事前学習する。このプロセスにより、視覚的および聴覚的外観に影響を与えるシーンの本質的な特徴をモデルが捉える能力が促進される。提案手法の有効性を検証するため、本手法で得られた事前学習重みと他の手法で得られた重みを比較し、転移学習性能を評価した。複数の代表的なリモートセンシングデータセット上でモデルをファインチューニングした結果、本手法が既存のリモートセンシング画像用事前学習戦略を上回ることを示した。本研究で用いたデータセット、コード、および事前学習済みモデルの重みは、https://github.com/khdlr/SoundingEarth にて公開される予定である。