SEVIR: 레이더 및 위성 기상학 분야의 딥러닝 응용을 위한 폭풍 사건 영상 데이터셋

최근 딥러닝 기반의 접근법은 강수 예측(nowcasting), 합성 레이더 생성, 기상 전선 탐지 등 기상학 분야에서 희망적인 성과를 보여주고 있다. 이러한 복잡한 알고리즘을 효과적으로 학습 및 검증하기 위해서는 고해상도 영상이 포함된 대규모이고 다양한 데이터셋이 필요하다. 지구정지 환경 위성 시스템(Geostationary Environmental Satellite System, GOES)과 차세대 레이더(NEXRAD) 시스템에서 생성된 페타바이트 규모의 기상 데이터가 공개되어 있지만, 이러한 데이터셋의 크기와 복잡성은 딥 모델 개발 및 학습에 큰 장애가 되고 있다. 이 문제를 해결하기 위해 우리는 여러 센서에서 얻은 공간적·시간적으로 정렬된 데이터를 통합한 단일이고 풍부한 데이터셋인 Storm EVent ImagRy(SEVIR)를 소개한다. SEVIR은 딥러닝 모델의 기초 구현 및 평가 지표를 함께 제공함으로써 새로운 알고리즘 혁신을 가속화한다. SEVIR은 10,000건 이상의 기상 사건을 포함하며, 각 사건은 4시간 동안 지속되는 384km × 384km 해상도의 이미지 시퀀스로 구성되어 있다. SEVIR의 이미지는 GOES-16 고급 기준 이미저의 세 개 채널(C02, C09, C13), NEXRAD의 수직적 통합 액체(mosaics), GOES-16 지구정지 뇌전 탐지기(Geostationary Lightning Mapper, GLM)의 번개 발생 정보 등 총 다섯 가지 다른 데이터 유형에서 샘플링 및 정렬하여 구성되었다. SEVIR 내의 많은 사건들은 NOAA 기상 사건 데이터베이스(Storm Events database)와 일치시켜, 강풍, 폭우, 우박 등의 기상 영향과 사건 설명과 같은 추가적인 정보를 센서가 제공하는 풍부한 영상과 연결할 수 있도록 했다. 본 논문에서는 데이터 수집 방법론을 설명하고, 기상학 분야의 딥러닝 응용 사례 두 가지—강수 예측 및 합성 기상 레이더 생성—를 통해 본 데이터셋의 활용 가능성을 보여준다. 또한, 이러한 모델의 출력을 평가할 수 있는 일련의 평가 지표도 제시한다. SEVIR 데이터셋과 일부 응용 사례에 대한 기초 구현 코드는 모두 공개되어 있으며, 누구나 다운로드하여 활용할 수 있다.