9日前

リモートセンシング画像向けのブイリオンスケール基盤モデル

Keumgang Cha, Junghoon Seo, Taekyung Lee
リモートセンシング画像向けのブイリオンスケール基盤モデル
要約

視覚タスクにおける基礎モデル(foundation model)の潜在能力が注目される中、下流タスクに向けた事前学習(pretraining)は重要なステップとなっている。基礎モデルの事前学習においては、3つの主要な要因が挙げられる:事前学習手法、事前学習データセットの規模、およびモデルパラメータ数。近年、リモートセンシング分野における研究は、主に事前学習手法とデータセット規模に注目が集まっており、モデルパラメータ数の影響についてはあまり検討されていない。本論文では、このギャップを埋めるために、モデルパラメータ数の増加が、回転物体検出やセマンティックセグメンテーションといった下流タスクにおける基礎モデルの性能に与える影響を検証する。86M、605.26M、1.3B、2.4Bという異なるパラメータ数を持つ基礎モデルを事前学習し、パラメータ数の増加に伴って下流タスクの性能が向上するかどうかを検証した。筆者らの知る限り、本研究はリモートセンシング分野における初の「ギガスケール」(billion-scale)の基礎モデルである。さらに、リモートセンシング分野における視覚変換器(vision transformer)のスケーリングとファインチューニングを効果的に行うための手法を提案する。下流タスクにおける汎化性能を評価するため、回転物体検出にはDOTA v2.0およびDIOR-Rベンチマークデータセット、セマンティックセグメンテーションにはPotsdamおよびLoveDAデータセットを用いた。実験結果から、すべてのベンチマークデータセットおよび下流タスクにおいて、モデルパラメータ数の増加に伴い、基礎モデルの性能およびデータ効率が向上することが明らかになった。さらに、DIOR-R、Potsdam、LoveDAなど複数のデータセットにおいて、本研究のモデルが最先端(state-of-the-art)の性能を達成している。

リモートセンシング画像向けのブイリオンスケール基盤モデル | 最新論文 | HyperAI超神経