HyperAI초신경

다중 분야 지구과학 응용 프로그램: 저장대학교 팀은 지리학, 해양학, 지질학 및 대기학 분야에서 시공간 모델링 및 예측을 지원하기 위해 일련의 GeoAI 방법을 제안했습니다.

特色图像

지구과학은 고도로 학제적인 분야로서 AI의 주도로 큰 변화를 겪고 있습니다. AI는 잠재적 정보를 채굴하고 방대한 지구과학 데이터 속에 숨겨진 패턴을 발견함으로써 사람들이 지구의 자연 현상에 대한 이해를 심화시킬 수 있을 뿐만 아니라, 연구자들이 다양한 지구과학 요소 간의 시공간적 비선형 관계를 모델링하고 예측하는 것을 최적화하고, 새로운 연구 패러다임을 형성하는 데에도 기여할 수 있습니다.

최근 HyperAI가 공동으로 주최한 COSCon'24 AI for Science 포럼에서저장대학교 지구과학부의 치진 연구원은 "GeoAI와 학제간 지구과학 응용"이라는 주제로 기존 지리적 모델링의 한계와 AI 기반 기존 방법이 주택 가격 분석, 해양 원격 감지, 대기 오염, 광물화 예측 및 기타 분야에 미치는 영향에 대해 모든 사람과 공유했습니다.

치진 선생님의 연설

하이퍼AI는 치진 선생님의 심도 있는 공유 내용을 원래 의도를 훼손하지 않고 편집하고 요약했습니다. 다음은 연설 전문입니다.

GeoAI의 학제간 응용 분야에는 주택 가격 분석, 해양 원격 감지, 대기 오염 및 광물화 예측이 포함됩니다.

관측 기술의 지속적인 발전으로 지구과학 분야의 시공간적 데이터가 폭발적으로 증가했습니다. 이러한 데이터는 해양 환경 모델링, 주택 가격 원인 분석, 광물 공간 분포 탐사, PM2.5 대기 오염 시뮬레이션 등의 과학 연구에 널리 활용될 수 있습니다.

과거에는 대상 객체의 공간적 이질성을 분석하거나 예측하기 위해 변수 간의 관계에 대한 지리적 위치의 영향을 분석하기 위해 전통적인 지리적 가중 회귀(GWR) 모델을 사용했습니다. 그러나 서로 다른 데이터 사이에는 복잡한 상호작용이 있습니다.더욱 정교한 모델 구조를 구축하고 더 큰 규모의 객체를 모델링하는 방법이 중요한 과제로 떠올랐습니다.

인공지능과 빅데이터의 발전에 적응하고 현실 세계의 복잡한 모델링 문제를 처리하기 위해우리는 전통적인 지리적 가중 회귀의 개념과 신경망 기술을 결합하여 지리적 신경망 가중 회귀(GNNWR)와 지리적 시공간적 신경망 가중 회귀(GTNNWR)를 포함하는 새로운 유형의 모델을 제안합니다.

첫 번째 논문이 발표된 이후, GNNWR, GTNNWR과 같은 일련의 방법이 많은 주목을 받았으며 해양학, 지리학, 대기 과학, 지질학 및 기타 분야에서 널리 사용되었습니다. 관련 논문 30편 이상이 출판되었습니다. 이러한 성과는 우리 팀에서 발표한 방법론적 연구나 응용 연구에만 국한되지 않습니다. 비슷한 모델링 아이디어나 기술 아키텍처를 사용하여 연구를 수행하는 외부 팀도 많이 있습니다. 현재 GNNWR은 GitHub에서 오픈 소스로 공개되었으며 pip install gnnwr(Python ≥ 3.9)을 직접 호출하는 것을 지원합니다.

GNNWR 오픈소스 주소:
https://github.com/zjuwss/gnnwr

주택 가격 분석을 예로 들면,우리 모두 알다시피, 주택 가격은 지리적 위치에 따라 상당한 영향을 받습니다. 관광지, 학군 위치 등은 주택 가격 수준에 직접적인 영향을 미칩니다. 지리학은 통계적 분석을 사용하여 주택 가격에 영향을 미치는 요소를 파악합니다. GNNWR 모형은 기존 회귀 모형과 비교했을 때 적합 정확도가 높을 뿐만 아니라 해석성도 뛰어나 주택 가격에 영향을 미치는 요인들의 작용 기전과 공간적 차이를 심층적으로 파악할 수 있습니다. 본 연구의 구체적인 내용은 나중에 자세히 소개하겠습니다.

원본 논문:
https://www.mdpi.com/2220-9964/11/8/450

https://www.tandfonline.com/doi/full/10.1080/13658816.2024.2343771

해양 생태환경 모델링 측면에서,원격 감지 위성이 우주에서 수집한 해양 이미지에는 풍부한 대역 정보가 포함되어 있습니다. 이러한 밴드 정보의 다양한 공간적 분포를 바탕으로 엽록소와 부유 퇴적물 등 해양 생태 요소의 함량을 분석할 수 있습니다.

최근 들어, 해양의 중요한 영양소인 규산염의 시간적, 공간적 분포도 GTNNWR 모델을 사용하여 추정할 수 있습니다. 규산염의 감소로 인해 해안 적조가 발생할 수 있습니다. GTNNWR 모델을 사용하면 연안 해역에 용해된 규산염의 미세한 시공간적 동적 변화를 얻을 수 있으며, 이를 통해 연안 적조 발생에 대한 원격 감지 조기 경보 신호를 제공할 수 있습니다. 본 연구의 구체적인 내용은 나중에 자세히 설명하겠습니다.

또 다른 예로는 PM2.5 오염이 있습니다.북쪽의 일부 중공업 도시가 오염의 주요 원인일 수 있습니다. GNNWR 모델은 공간적으로 비정상적 회귀 관계를 확립하고, PM2.5 농도를 추정하고, 전국에 걸쳐 고정밀이고 상당히 자세한 PM2.5 분포를 제공할 수 있습니다. 예를 들어, 지리공간 모델링을 통해 우리는 PM2.5 농도가 베이징에서 롄윈강까지 전반적으로 높다는 것을 발견했는데, 이는 풍향과 풍속과 같은 요인의 영향을 받을 수 있습니다. 또한 특정 지역의 방풍림은 PM2.5의 확산을 억제할 수 있습니다.

원본 논문:
https://www.mdpi.com/2072-4292/13/10/1979

지질학 분야, 특히 금 매장량의 공간 분포 예측 분야에서우리는 지질학적 요인이 금 매장지 형성 확률에 미치는 영향을 밝히기 위해 일련의 연구를 수행했습니다. 구축된 모델에서 우리는 모델의 해석성을 높이고 복잡한 공간 환경에서 광물화를 정확하게 예측하고 해석하기 위해 샤플리 방법을 도입했습니다.

자세한 내용: 저장대학교 두진홍 연구팀이 제안한 GNNWLR 모델은 기존 5개 고급 모델보다 우수: 광화 예측 정확도 향상

햄버거 가격을 예로 들어 기존 지리적 모델링의 한계를 탐구합니다.

전통적인 통계학 분야에서 PM2.5 농도에 영향을 미치는 요인이 무엇인지 알아보려면 일반적으로 다중선형회귀분석을 사용합니다. 즉, x는 독립변수, y는 종속변수이고, y와 x의 관계를 알아봅니다. 하지만,지리 연구 분야에서는 공간적 위치에 따라 변수 간의 관계가 달라지기 때문에 전통적인 통계적 방법으로는 이처럼 복잡한 자연 현상을 모델링하기 어렵습니다.

햄버거의 가격을 예로 들어 보겠습니다. 햄버거의 가격을 y라고 하자. 베이징의 햄버거 가격은 25위안인 반면, 항저우의 햄버거 가격은 15위안입니다. 간단한 선형 모델링을 사용하면, 장쑤성이 베이징과 항저우 사이에 위치해 있다는 점을 감안할 때, 장쑤성의 햄버거 가격은 20위안이라고 예측할 수 있습니다. 하지만 지리적 요인은 그렇게 단순한 선형 관계가 아닙니다. 햄버거의 가격은 물류 비용, 운송 조건, 원자재 비용 등 여러 요인에 영향을 받습니다. 이러한 요소들의 공간 내 분포는 다양합니다.즉, 모델링할 때 서로 다른 지리적 위치에서 다양한 요소의 가중치를 고려해야 함을 의미합니다.

지리적 관계를 모델링하는 문제를 더욱 해결하기 위해 지리학자들은 전통적인 다중 선형 회귀 분석을 지리 가중 회귀 분석(GWR)으로 확장했습니다.GWR에서는 각 독립변수 앞의 회귀계수 β가 지리적 위치에 따라 변하는 특성을 가지고 있다.즉, 각 회귀 계수의 가중치는 공간적 위치의 변화에 따라 변합니다. 이러한 변화를 우리는 종종 "공간적 비정상성"이라고 부르는데, 이는 독립 변수와 종속 변수 간의 관계가 안정적인 선형 관계가 아니라 변동한다는 것을 의미합니다.

지리적으로 가중된 회귀 계수를 계산하는 방법은 무엇입니까? 핵심은 두 가지 요소로 구성됩니다. 첫 번째는 정확한 공간 거리를 계산하는 것이고, 두 번째는 많은 커널 함수 중에서 가장 정확한 피팅 함수를 선택하는 것입니다.

공간적 거리 계산 측면에서 유클리드 거리 외에도 맨해튼 거리 계산도 있습니다. 항저우가 난징에서 200km 떨어져 있고, 베이징도 난징에서 200km 떨어져 있다고 가정할 때, 유클리드 거리를 기준으로 계산하면 두 장소 사이의 직선 거리는 피타고라스의 정리를 사용하여 계산할 수 있습니다. 하지만 실제로 배편으로 다롄에서 옌타이까지 가는 거리는 100km 정도에 불과하지만, 고속철도를 이용하면 더 먼 거리를 우회해야 하므로 실제 거리는 300km가 넘을 수 있습니다.따라서 공간 모델링에서는 거리 계산 방법을 선택하는 것이 중요합니다.

두 번째로, "커널 함수"라는 개념을 소개하고 아래 그림과 같이 커널 함수의 힐 그래프를 그렸습니다. 분석 지점(빨간색 점)에서 멀어질수록 가중치는 낮아지지만, 이 관계는 단순히 감소하는 관계가 아니라 공간적 거리에 따라 변동합니다.지리학자가 모델을 구축할 때 가우스 함수, 지수 함수 등 가중치 커널 함수에 대한 많은 선택권이 있습니다.

요약하자면, 공간적 거리 측정의 불확실성과 데이터에 가장 적합한 커널 함수의 선택은 지리적 모델링의 정확도에 영향을 미치는 주요 문제입니다.

기존 지리적 모델링과 AI의 결합

복소수 비선형성은 현실 세계의 다양한 요소 간에 내재적으로 나타나는 특성입니다. 머신 러닝과 신경망은 이러한 문제를 해결하기 위해 탄생했습니다.

지리적 모델링 분야에서 두 지점 사이의 공간적 거리는 종종 비선형적이며, 커널 함수로 표현되는 가중치도 비선형적으로 변경됩니다. 따라서 우리는 전통적인 지리적 가중 회귀(GWR) 개념과 신경망 기술을 결합합니다.지리적 신경망 가중 회귀(GNNWR)와 지리적 시공간 신경망 가중 회귀(GTNNWR)를 포함한 새로운 종류의 방법 모델이 제안되었습니다.

관련 논문:

https://www.tandfonline.com/doi/full/10.1080/13658816.2019.1707834

https://www.tandfonline.com/doi/full/10.1080/13658816.2020.1775836

https://www.tandfonline.com/doi/full/10.1080/13658816.2022.2100892

이 방법에는 두 가지 주요 특징이 있습니다. 첫째, 공간적 거리를 계산하기 위해 특별히 신경망을 구축합니다. 실제 거리가 100km이건 300km이건, 신경망은 빅데이터를 통해 두 지점 사이의 가장 적합한 거리를 모델링할 수 있습니다. 두 번째로, 이 방법은 시공간적 가중치 네트워크, 즉 공간 가중 신경망을 설계하는데, 이는 입력의 공간적 거리에 기반하여 출력 가중치 값을 계산하는 역할을 합니다.이 과정에서는 어떤 커널 함수를 사용할지 미리 결정할 필요가 없습니다. 그 대신 신경망은 스스로 데이터 특징을 학습하고 이를 기반으로 지리적 가중치를 자동으로 구성합니다. 위의 두 신경망을 중첩하여 적용하면 최종적으로 해당 변수 y에 대한 정확한 예측이 달성됩니다.

GNNWR은 기존 방식과 달리 독립변수 앞의 계수 β를 정확하게 계산할 수 있습니다.좀 더 직관적으로 표시하기 위해 다음 그림과 같이 회귀 계수 β를 시각화해 보겠습니다. 무게 분포는 오렌지 다이아몬드, β 상단과 하단에 높은 가중치가 있고 중간에 낮은 가중치가 있는 독특한 분포 패턴을 보여줍니다. 이는 중앙 원형 분포를 나타냅니다.

아래 그림과 같이,훈련 세트와 테스트 세트 모두에서 신경망과 결합된 GWR의 정확도가 크게 향상되었습니다.

주택 가격 및 해양 생태 환경 모델링에 GNNWR 적용

주택 가격은 직장과 관련이 있을 뿐만 아니라 교통, 학군, 환경 등의 요소도 고려해야 합니다.주택 가격 모델링에서 우리는 우한 주택 가격을 예로 들어 약 1,000건의 중고 주택 거래 기록에서 데이터를 수집하여 85:15의 비율로 훈련 세트와 테스트 세트로 나누었습니다. 중고주택을 선택하는 이유는 정책 규제의 영향을 덜 받고 실제 경제 흐름 효과에 더 가깝기 때문입니다.

연구 과정에서 우리는 기존의 신경망 모델링 프로세스를 따랐고, 테스트 세트를 훈련 세트로 나누고, 주택 가격에 영향을 줄 수 있는 일련의 변수를 수집했습니다. 이 사례의 특징은 '공간적 거리'라는 새로운 개념을 도입했다는 점입니다. 우리는 기존의 유클리드 거리 외에도 실제 교통 상황을 기반으로 한 '통근 거리'를 제안했습니다. 거리 융합 기능을 구축함으로써,우리는 통근 거리와 유클리드 거리를 함께 신경망에 입력하여 두 거리를 융합한 후의 비선형 거리를 결정합니다.

모델의 전반적인 구조는 크게 변경되지 않았습니다. 또한 각 요인의 해당 가중치 w를 입력하고 최종 주택 가격 y를 출력합니다. 비교 실험을 통해 우리는 다음을 증명합니다.유클리드 거리와 통근 거리를 모두 고려할 때, 모델 성능은 기존 모델링보다 12% 더 높은데, 이는 신경망에 단일 거리를 별도로 입력했을 때의 성능 향상보다 높습니다.

이 연구는 또한 우한의 주택 가격과 대학 도시, 연구소, 기술 기업, 관광 명소의 분포 사이의 상관관계를 밝혀냈습니다.또한, 제안된 모델은 도심에서 멀리 떨어진 지역의 주택 가격을 예측하는 데 특히 효과적입니다. 구체적으로, 도심으로부터의 거리가 멀어질수록 모델의 예측 정확도도 높아집니다. 이는 도시 외곽 지역에서는 특수한 거리 측정 방법을 사용하면 주택 가격 변화 패턴을 더 정확하게 파악할 수 있음을 보여줍니다.

해양 생태환경 모델링 측면에서,예를 들어, 양쯔강의 삼협댐을 살펴보겠습니다. 댐은 실트를 가로막아 물을 더 맑게 만들지만, 동시에 중요한 영양소인 규산염이 바다로 유입되는 것을 차단합니다. 규산염의 감소로 인해 해안을 따라 독성 및 유해 적조의 비율이 증가하게 됩니다. 기존 연구 방법에서는 등고선 지도를 그려 영양소의 흐름 추세를 대략적으로 추정합니다. 그러나 새로운 시대의 맥락에서 시간적, 공간적 해상도가 높은 원격 감지 위성 이미지를 사용하여 영양소 분포를 탐색하는 방법은 새로운 주제가 되었습니다. 이에 본 연구에서는 빅데이터의 장점을 활용하여 해양 영양소 분석 등을 달성하고자 GeoAI 기반의 비선형 모델링 접근법을 제안하였습니다.

본 연구에서는 연구팀이 독자적으로 개발한 GNNWR 방법을 채택했습니다. 이 방법의 특징은 아래 그림과 같다. 또한, 데이터셋 매칭, 원격 감지 시공간 추정, 누락된 데이터 완성과 같은 작업도 수행했습니다.

연구 과정에서 우리는 저장성 해양 모니터링 관리부와 협력하여 그곳에서 공개된 모니터링 데이터를 활용하고 유명한 API인 Google Earth Engine Map과 결합하여 필요한 원격 감지 이미지를 다운로드했습니다. 그런 다음 시간, 공간적 위치, 해상도를 정의하고 표준 절차에 따라 이를 훈련 세트, 테스트 세트, 검증 세트로 나누었습니다. 우리는 10겹 교차 검증을 구현하고 모델링을 위해 가장 좋고 안정적인 결과를 선택했습니다.

우리는 모델링을 통해 지난 9년간 저장성 해양의 일일 규산염의 시간적, 공간적 분포 변화를 지도화했습니다. 매년 8월에는 해양 생물과 식물의 활동이 잦아 규산염 함량이 낮은 것으로 관찰되었습니다. 9월과 10월에는 양쯔강이 저장성 연안 해역으로 흘러들면서 해당 지역의 영양염류 함량이 크게 증가합니다.

아래 그림에서 볼 수 있듯이 파란색 곡선은 규산염 함량이고, 주황색 곡선은 양쯔강의 흐름 방향과 속도입니다. 저장성을 흐르는 양쯔강 물의 분포와 규산염 함량 사이에 상당한 상관관계가 있으며, 피어슨 계수는 0.462에 달하는 것을 알 수 있습니다.이는 양쯔강 수역이 저장성 수역에 미치는 영향이 매년 가을과 겨울에 더욱 뚜렷해진다는 것을 증명합니다.

또한, 우리는 높은 시간적, 공간적 해상도 데이터를 사용하여 해양 생물 활동의 변화를 분석했습니다. 연구에 따르면 저장성 연안 해역의 적조 기간 동안 관련 곡선이 2주 이내에 두 번이나 떨어졌는데, 이는AI 방법은 모델 정확도를 향상시킬 수 있을 뿐만 아니라, 시간과 공간의 미묘한 변화를 밝혀내거나 규조류 개화에 대한 실시간 모니터링 및 조기 경보를 위한 중요한 신호를 제공할 수도 있습니다.

해안 태풍의 영향과 관련하여, 태풍이 바다에 도달한 날에 영양소 수준이 최고조에 달하고 3일 후에 원래 수준으로 돌아갔다는 것을 확인했습니다.이러한 현상은 태풍으로 인해 해수면 아래가 교란되어 해저의 영양분이 깊은 곳에서 해수면으로 올라오는 데 기인합니다. 그러나 태풍 이후 영양소 함량은 빠르게 원래 상태로 돌아가며, 이는 전통적인 해양학 연구에서 추론된 메커니즘을 데이터 중심 관점에서 확인시켜 줍니다.

요약하자면,본 연구는 해상 적조에 대한 조기 경보를 위한 예측 신호를 제공하고, 태풍이 해양의 시간적, 공간적 변화에 미치는 영향을 검증한다. 연구팀은 해양 분야에서 일련의 논문을 발표하여 해양 수질의 시간적, 공간적 분포 변화를 탐구했으며, 앞으로도 새로운 연구 방향을 모색할 가능성이 있습니다.

저장대학교 지구과학대학 소개

이번 공유 세션의 초대 연사는 저장대학교 지구과학부 출신의 치진 선생님입니다.그의 연구 방향은 인공지능 해양학 및 지구과학 빅데이터 분석 플랫폼 개발입니다. 그는 "14차 5개년 계획"의 국가 중점 연구개발 계획 하위 프로젝트와 국가 자연과학 기금 프로젝트를 포함하여 많은 중요한 과학 연구 프로젝트를 주재했습니다. 그는 저장성 근해수역 생태환경 다중정보 지능형 서비스 플랫폼의 기술 책임자를 역임했으며, 해양공정과학기술상 1등을 수상했습니다.

치진의 개인 홈페이지:

https://person.zju.edu.cn/qijin

두진홍 교수와 우센센 교수가 이끄는 그의 팀은 최근 몇 년 동안 지구과학과 정보과학 분야에서 일련의 성과를 거두었습니다.이 팀이 제안한 GNNWR 시리즈 모델은 업계의 인재들에게 널리 사용되고 있으며, 이 모델은 총 10,000회 이상 다운로드, 호출 및 인용되었습니다. 앞으로 팀은 GIS 이론과 방법, 지구과학적 지능형 분석 플랫폼 기술을 본격적으로 개발하고 GeoAI 개발을 지속적으로 모색할 것입니다.

GNNWR 연구팀 리더인 우 센센의 개인 홈페이지와 시공간 지능 회귀 모델에 대한 간략한 소개:

https://mypage.zju.edu.cn/wusensen/#977161

이 팀은 박사후 연구원과 연구 조수를 모집하고 있습니다. GIS, 원격 감지, 지리학, 해양학, 지질학, 컴퓨터 과학 및 기술 분야의 연구자 여러분의 참여를 환영합니다. 또한, 해외의 뛰어난 청년들과 다양한 고급 인재들의 참여를 환영합니다!