16日前

リモートセンシング画像を用いた自己教師学習におけるグローバル-ローカル視点の整合性の拡張

Xinye Wanyan, Sachith Seneviratne, Shuchang Shen, Michael Kirley
リモートセンシング画像を用いた自己教師学習におけるグローバル-ローカル視点の整合性の拡張
要約

大規模な高品質なリモートセンシング画像が容易に入手可能であることに伴い、手動アノテーションを最小限に抑えた画像コーパスを活用する研究が注目を集めています。自己教師付きモデルは、大量のラベルなしデータに対して擬似ラベルを生成する事前学習タスク(pretext task)を定式化することで、汎用的な特徴表現を獲得します。これまでの研究では、リモートセンシング分野における多様な自己教師付き学習手法が検討されてきましたが、自然画像において最先端の性能を達成している「局所-全体ビューの整合性」に基づく事前学習タスクは、依然として十分に探索されていません。DINO(Deep Invariant Online Network)のアプローチに着想を得て、知識蒸留を用いた局所-全体ビューの整合性に基づく効果的な表現学習構造を採用し、リモートセンシング画像における自己教師付き学習(SSLRS)のための2つの事前学習タスクを提案します。これらのタスクを用いて、正の時系列対比(positive temporal contrast)および多スケールビューの有効性をSSLRSにおいて検証します。DINOの枠組みを拡張し、リモートセンシング画像において物体サイズの変動が限られているという特性を考慮して、固定されたサイズの局所ビューではなく、様々なサイズの切り取り画像(crops)を用いるDINO-MCを提案します。実験の結果、DINO-MCはデータセットの10%のみで事前学習を行っても、複数のリモートセンシングタスクにおいて既存の最先端SSLRS手法と同等、あるいはそれ以上の性能を達成し、同時に計算リソースの消費を抑えることが明らかになりました。本研究で開発したすべてのコード、モデル、および実験結果は、https://github.com/WennyXY/DINO-MC にて公開されています。

リモートセンシング画像を用いた自己教師学習におけるグローバル-ローカル視点の整合性の拡張 | 最新論文 | HyperAI超神経