HyperAIHyperAI

Command Palette

Search for a command to run...

150개국의 뉴스를 처리하는 제미니(Gemini)를 기반으로 구글은 260만 건 이상의 과거 기록을 포함하는 오픈소스 홍수 데이터 세트인 그라운드소스(Groundsource)를 공개했습니다.

Featured Image

전 세계 다양한 자연재해 중 홍수는 발생 빈도가 높고 파괴력이 막대한 몇 안 되는 재해 중 하나로, 수문학, 기후 과학, 재난 관리 분야에서 오랫동안 핵심적인 관심사였습니다. 수문 예측 모델 개선 및 기후 변화가 홍수 발생 양상에 미치는 영향 분석부터 미래 홍수 위험 평가 및 재난 예방·완화 시스템 개선에 이르기까지,거의 모든 관련 연구는 동일한 기본 조건, 즉 고품질의 과거 홍수 데이터에 의존합니다.이 데이터는 모델의 신뢰성을 검증하는 데 중요한 참고 자료가 되며, 위험 평가 및 정책 결정을 지원하는 중요한 기반이 됩니다.

기존의 수문 및 기상 관측소는 분포가 드문드문하고 데이터 품질도 제각각이어서 대규모의 정밀한 홍수 정보를 수집하기 어렵습니다. 현재 진정으로 포괄적인 홍수 데이터 세트는 매우 드뭅니다. 미국 국립환경정보센터(NCEI)에서 관리하는 폭풍 사건 데이터베이스가 대표적인 예이지만, 이처럼 체계적인 기록은 전 세계적으로도 부족하며, 많은 국가들이 아직 장기적인 홍수 사건 데이터베이스를 구축하지 못했습니다. 따라서 기존의 전 세계 홍수 데이터 세트는 일반적으로 데이터 범위와 기록의 완전성 측면에서 부족한 점이 있습니다.

홍수 발생에 관한 방대한 정보가 뉴스 보도나 정부 문서와 같은 비정형 텍스트 형태로 오랫동안 흩어져 있다는 점은 주목할 만합니다. 과거 연구에서는 이러한 자료에서 데이터를 추출하려는 시도가 있었지만, 텍스트 표준화의 한계와 높은 수작업 처리 비용으로 인해 대규모 구현에 어려움이 있었습니다. 최근 생성형 인공지능 분야의 발전은 이러한 문제를 해결할 수 있는 새로운 돌파구를 제시하고 있습니다.

최근 구글 리서치는 비정형 데이터에서 검증된 지표 정보를 추출하여 과거 재해 발생 지역을 전례 없는 정확도로 지도화할 수 있는 홍수 데이터셋인 Groundsource를 오픈소스로 공개했습니다.연구진은 150개국 이상에서 나온 500만 건 이상의 뉴스 보도를 자동화된 방식으로 처리하여, 최종적으로 260만 건 이상의 과거 홍수 발생 기록을 수집했습니다.이는 전 세계 홍수 연구를 위한 전례 없는 규모와 범위의 데이터를 제공합니다.

현재,Groundsource의 글로벌 홍수 발생 데이터셋이 이제 HyperAI 웹사이트(hyper.ai)의 데이터셋 섹션에서 이용 가능합니다.온라인 사용:

https://go.hyper.ai/KO3dB

서류 주소:
https://eartharxiv.org/repository/view/12083/
저희 공식 위챗 계정을 팔로우하고 백그라운드에서 "Groundsource"라고 답장하시면 전체 PDF 파일을 받으실 수 있습니다.

500만 건의 뉴스 기사를 바탕으로 260만 건 이상의 홍수 관련 보도를 선별했습니다.

Groundsource 데이터셋은 표준화된 자동화 프로세스를 통해 구축되었습니다. 전 세계 데이터 수집 및 개체 인식 단계에서 연구팀은 WebRef 개체명 인식 시스템과 Read Aloud 도구와 같은 Google의 인프라를 일부 활용했습니다. 하지만 데이터 추출 로직, 대규모 언어 모델 제안 프레임워크, 시공간적 집계 규칙은 모두 공개적으로 문서화되어 있습니다. 따라서 이 프로세스는 오픈 소스 알고리즘이나 다른 언어 모델로 대체하더라도 다양한 기술 환경에서 재현 가능합니다.

데이터 구축은 뉴스 정보 수집에서 시작됩니다.연구팀은 웹 크롤러를 사용하여 2000년 이후 공개된 뉴스 기사를 수집하고 WebRef를 사용하여 각 기사의 홍수 관련성 점수를 계산했습니다.연구진은 임계값을 0.6으로 설정했습니다.예비 심사약 950만 개의 웹페이지하지만 수동 표본 조사 결과, 실제로 홍수 사태를 보고한 사람은 절반 정도에 불과했고, 나머지는 배경 설명 정도로만 언급된 것으로 나타났습니다.

그다음은 텍스트 추출 단계입니다.이 시스템은 웹 페이지에서 광고와 탐색 요소를 자동으로 제거하고 기사 본문과 발행일만 남기며, 구문 분석이 불가능한 언어나 접속할 수 없는 웹사이트는 필터링합니다.최종적으로 사용 가능한 자료의 수는 약 750만 개였습니다.모든 비영어 텍스트는 영어로 번역되고, 개체 인식을 통해 지리적 위치 이름이 추출되어 후보 위치 데이터베이스가 구축됩니다.

뉴스 기사에서 특정 홍수 사건을 식별하는 것이 전체 과정에서 가장 복잡한 부분입니다. 보도 자료에는 종종 여러 위치와 "어제" 또는 "지난주"와 같은 모호한 시간 표현이 포함됩니다. 따라서연구팀은 제미니 대규모 언어 모델을 위한 구조화된 제안 프레임워크를 설계하고 수동으로 주석이 달린 250개의 기사를 사용하여 이를 테스트했습니다.이 모델은 Google Read Aloud를 사용하여 80개 언어에서 원문을 추출한 다음 클라우드 번역 API를 통해 영어로 정규화했습니다. 그런 다음 모델은 네 가지 작업을 순차적으로 수행했습니다. 첫째, 기사가 실제 홍수 사건을 묘사하는지 여부를 판단하고, 둘째, 사건 발생 시간을 추출하고 정규화하고, 셋째, 홍수로 피해를 입은 특정 위치를 식별하고, 넷째, 지명을 표준 지리적 식별자와 일치시키는 작업입니다.

이 과정에 따르면,750만 개의 기사 중 약 500만 개가 실제 홍수 사건을 다룬 기사로 확인되었습니다.수동으로 라벨링된 샘플을 기준으로 할 때, 이벤트 인식의 정밀도는 약 75%이고 재현율은 약 90%입니다. 날짜 및 위치 추출의 정확도는 다소 낮지만, 여전히 효과적인 시공간적 단서를 제공합니다.

지도상에서 이러한 이벤트의 위치를 표시하기 위해 시스템은 해당 위치를 지리적으로 인코딩합니다. 기존의 지리적 요소와 일치하는 경우 해당 공간 경계가 직접 호출됩니다. 일치하는 요소가 없는 경우 장소 이름은 지오코딩 서비스를 통해 좌표로 변환되고, 공간 분석에 필요한 경우 작은 버퍼 영역이 생성됩니다.

마지막으로, 연구팀은 지리적 식별자와 시간 정보를 기반으로 연속적으로 보고된 기록들을 하나의 홍수 사건으로 통합하고, 범위가 너무 넓거나 시기가 부적절한 기록들을 제거하는 품질 관리를 수행했습니다. 이러한 일련의 과정을 거친 후,그 결과 264만 건 이상의 고유 기록이 나왔는데, 각 기록은 특정 시간과 장소에서 뉴스 보도에 포착된 홍수 관측 자료에 해당합니다.

데이터셋 평가: 82% 이벤트는 분석적 가치가 있으며, 거리 수준의 정밀도는 소규모 재해 기록의 공백을 메워줍니다.

Groundsource 데이터 세트의 신뢰성을 평가하기 위해,본 연구는 데이터의 정확성, 시공간적 분포, 외부 데이터베이스와의 일관성이라는 세 가지 측면에서 데이터를 분석합니다.이는 두 가지 주요 데이터베이스인 글로벌 재난 경보 및 조정 시스템(GDACS)과 다트머스 홍수 관측소(DFO)와 비교되었습니다.

정확도 평가에서 연구진은 400개의 기록을 무작위로 선택하고 원본 뉴스 출처를 추적하여 시간과 위치 정보를 검증했습니다. 그 결과, "정확한" 기록은 60%(신뢰구간 ± 5%, 총 95%)를 차지하는 것으로 나타났습니다.약간의 편향이 있지만 여전히 분석적 가치가 있는 기록을 포함할 경우, 약 82%의 이벤트를 후속 분석에 사용할 수 있습니다.나머지 약 18% 오류는 주로 지명의 모호성으로 인한 공간 위치 오류와 "어제" 및 "지난주"와 같은 상대적 시간 표현을 잘못 해석한 데서 비롯됩니다.

시공간적 분포 측면에서 볼 때, 데이터 세트는 명확한 "최근 편향"을 보인다.아래 그림에서 볼 수 있듯이, 약 641건의 TP3T 기록이 2020년에서 2025년 사이에 집중되어 있으며, 그중 151건은 2025년에 기록되었습니다. 이러한 추세는 홍수 발생 건수 증가보다는 디지털 뉴스 매체의 급속한 성장을 반영하는 것으로 보입니다.

Groundsource 데이터셋의 시간적 분포

공간적 분포는 미디어 생태계의 영향도 받는데, 뉴스 보도가 활발한 지역에서는 더 많은 사건이 기록되고, 디지털 뉴스가 부족하거나 언어 지원이 불충분한 지역에서는 대표성이 떨어집니다. 하지만 데이터는 유럽, 남아시아, 동남아시아와 같이 홍수 발생 가능성이 높은 지역을 분명하게 보여줍니다.그 공간적 분포는 GDACS에서 기록한 주요 홍수 발생 지역과 매우 일치합니다.

추출된 홍수 사건의 전 세계 공간 분포

보고 편향에도 불구하고 Groundsource는 공간 해상도 측면에서 매우 뛰어난 성능을 보여줍니다.통계에 따르면 추출된 사건의 평균 범위는 142제곱킬로미터이며, 그중 821건의 TP3T 기록은 50제곱킬로미터 미만입니다. 많은 사건을 블록 또는 커뮤니티 규모로 세분화할 수 있으므로 기존의 글로벌 재난 데이터베이스에서 간과되기 쉬운 국지적 홍수까지 포착할 수 있습니다.

추출된 홍수 발생 사건의 지리적 분포

본 연구는 무결성 평가에서 Groundsource를 시공간적 일치를 통해 글로벌 재난 경보 및 조정 시스템(GDACS) 및 다트머스 홍수 관측소(DFO)와 비교했습니다. 그 결과, 2020년 이후 GDACS 이벤트의 재현율은 851 TP3T에서 1001 TP3T 사이였으며, 미국과 같이 미디어 인프라가 잘 발달된 지역에서는 일치율이 각각 961 TP3T(GDACS)와 911 TP3T(DFO)에 달했습니다. 또한,리콜률은 재해 피해의 심각도와 유의미한 상관관계를 보입니다. 대규모 홍수 사태의 리콜률은 90%에 근접하거나 이를 초과합니다.

지상 소스 vs. GDACS 및 DFO

전반적으로 Groundsource는 완벽하게 균형 잡힌 글로벌 서비스 범위를 제공할 수는 없지만,하지만 260만 건이 넘는 기록과 높은 공간 해상도를 갖춘 이 데이터베이스는 소규모의 국지적인 홍수 사건을 기록하는 데 있어 기존 재해 데이터베이스의 한계를 보완합니다.이는 전 세계 홍수 연구를 위한 새로운 데이터 소스를 제공합니다.

AI 기반 홍수 데이터 연구

대규모 언어 모델을 사용하여 비정형 텍스트에서 표준화된 홍수 발생 정보를 추출하는 것은 홍수 연구 분야에서 점차 중요한 방법으로 자리 잡고 있습니다.

학계에서는 많은 연구팀들이 이 방향을 지속적으로 탐구해 왔습니다. MIT 연구진은 대규모 언어 모델이 홍수 발생 정보를 추출할 때 흔히 겪는 시간적 모호성과 지명 모호성 문제를 해결하기 위해 개선된 단서 단어 전략과 문맥 연관 방법을 제안했습니다.연구팀은 과거 수문 관측 데이터를 활용하여 모델을 세밀하게 조정함으로써 홍수 발생 날짜 추출 정확도를 80% 이상으로 향상시켰고, 다양한 언어로 된 뉴스 텍스트를 더욱 안정적으로 처리할 수 있는 다국어 적응 모듈을 개발하여 여러 지역을 포괄하는 홍수 발생 데이터 세트를 구축했습니다.

논문 제목: 기후 시각화를 위한 물리적으로 일관성 있는 위성 이미지 생성
논문 링크:

https://ieeexplore.ieee.org/document/10758300

싱가포르 국립대학교 연구팀은 자신들의 연구 결과를 적용할 수 있는 범위를 더욱 확장했습니다.연구팀은 AI가 뉴스 보도에서 추출한 과거 홍수 발생 사례와 도시 배수망 데이터, 고정밀 지형 정보를 결합하여 도시 규모의 홍수 위험 평가 모델을 구축했습니다.연구자들은 다양한 지역의 홍수 발생 빈도와 규모, 그리고 도시 기반 시설 간의 관계를 분석함으로써 잠재적 위험 지역을 더욱 명확하게 파악하고 도시 홍수 방지 계획 수립에 보다 효과적인 참고 자료를 제공할 수 있습니다. 또한 극한 기후 조건 하에서 미래 홍수 위험의 변화 추세를 예측하고자 합니다.

논문 제목: 데이터 부족 지역에서 전이 가능한 AI를 활용한 대홍수 예측
논문 링크:

https://www.cell.com/the-innovation/fulltext/S2666-6758(24)00090-0

관련 연구의 진전이 산업계로까지 확대되기 시작했습니다.마이크로소프트 리서치는 NASA와 협력하여 AI 기반 홍수 위험 예측 플랫폼인 Hydrology Copilot을 개발했습니다.이 시스템은 뉴스 보도, 위성 원격 탐사 정보, 실시간 수문 모니터링 데이터에서 추출한 홍수 발생 데이터를 통합하고, 머신러닝 모델을 사용하여 홍수 발생 확률과 잠재적 피해 범위를 예측합니다. 현재 이 플랫폼은 미국을 비롯한 여러 국가에서 시범 운영되고 있으며, 지역 재난 관리 부서의 홍수 경보 및 대응 체계 개선을 지원하고 있습니다.

전반적으로, 뉴스 기사에서 홍수 발생 정보를 자동으로 추출하는 기술은 기존의 관측 데이터를 보완하는 중요한 자료원으로 점차 자리 잡고 있습니다. 모델 기능과 데이터 규모가 지속적으로 향상됨에 따라, 이러한 방법은 전 세계 홍수 위험 연구를 위한 더욱 풍부하고 고해상도의 데이터 기반을 제공할 것으로 기대됩니다.

참조 링크:
1.https://www.geekwire.com/2025/microsoft-nasa-ai-hydrology-copilot-floods