9일 전

원격 탐사 이미지를 위한 10억 규모의 기초 모델

Keumgang Cha, Junghoon Seo, Taekyung Lee
원격 탐사 이미지를 위한 10억 규모의 기초 모델
초록

시각 작업에서 기반 모델(기초 모델)의 잠재적 가능성이 큰 관심을 끌고 있는 가운데, 하류 작업 전에 이러한 모델을 사전 훈련하는 것은 필수적인 단계가 되었다. 기반 모델의 사전 훈련에 있어 세 가지 핵심 요소는 사전 훈련 방법, 사전 훈련 데이터셋의 크기, 그리고 모델 파라미터 수이다. 최근 원격 탐사 분야의 연구는 주로 사전 훈련 방법과 데이터셋 크기에 초점이 맞춰져 있으며, 모델 파라미터 수에 대한 연구는 상대적으로 제한적이다. 본 논문은 이러한 연구 갭을 보완하기 위해, 모델 파라미터 수 증가가 회전 객체 탐지 및 세분화와 같은 하류 작업에서 기반 모델 성능에 미치는 영향을 탐구한다. 다양한 파라미터 수(86M, 605.26M, 1.3B, 2.4B)를 가진 기반 모델을 사전 훈련하여, 파라미터 수 증가에 따라 하류 작업 성능이 향상되는지 여부를 검증하였다. 우리 지식에 따르면, 본 연구는 원격 탐사 분야에서 최초로 백억 규모(10억 규모)의 기반 모델을 제안한 사례이다. 또한, 원격 탐사 분야에서 비전 트랜스포머( vision transformer)의 확장 및 미세 조정을 위한 효과적인 방법을 제안한다. 하류 작업에서의 일반화 성능 평가를 위해, 회전 객체 탐지에는 DOTA v2.0 및 DIOR-R 벤치마크 데이터셋을, 세분화 작업에는 Potsdam 및 LoveDA 데이터셋을 사용하였다. 실험 결과, 모든 벤치마크 데이터셋과 하류 작업에서 모델의 성능과 데이터 효율성이 파라미터 수 증가에 따라 향상됨을 확인하였다. 또한, 본 연구에서 제안한 모델은 DIOR-R, Potsdam, LoveDA 등 여러 데이터셋에서 최고 수준의 성능을 달성하였다.