HyperAI초신경

미국의 실업률과 빈곤율을 정확하게 예측합니다. Google의 인구 역학 기본 모델인 PDFM이 기존 지리공간 모델을 향상시키기 위해 오픈 소스화되었습니다.

特色图像

질병, 경제 위기, 실업, 재난... 인간 세계는 오랫동안 다양한 문제로 인해 '침략'을 받아 왔습니다.인구 동향을 이해하는 것은 이러한 복잡한 사회 문제를 해결하는 데 매우 중요합니다.정부 관료는 인구 역학 데이터를 활용해 질병 확산을 시뮬레이션하고, 주택 가격과 실업률을 예측하고, 심지어 경제 위기를 예측할 수도 있습니다. 그러나 인구 동향을 정확하게 예측하는 것은 지난 수십 년 동안 연구자와 정책 입안자들에게 어려운 과제였습니다.

인구 동향을 이해하는 전통적인 접근 방식은 종종 인구 조사, 조사 또는 위성 이미지 데이터에 의존합니다. 이러한 데이터는 가치가 있지만, 각 데이터에는 단점이 있습니다. 예를 들어, 인구 조사는 포괄적이기는 하지만 실시 빈도가 낮고 비용이 많이 듭니다. 설문조사는 지역적 통찰력을 제공할 수 있지만 규모와 보편성이 부족한 경우가 많습니다. 위성 이미지는 광범위한 개요를 제공하지만 인간 활동에 대한 자세한 정보는 부족합니다. 이러한 단점을 보완하고자, Google은 인구 통계적 행동을 이해하고자 수년에 걸쳐 방대한 데이터 세트를 구축해 왔습니다.

최근 구글은 머신 러닝을 사용하여 전 세계에서 사용 가능한 풍부한 지리공간 데이터를 통합하는 새로운 인구 역학 기반 모델(PDFM)을 제안했으며, 이를 통해 기존 지리공간 모델의 기능을 크게 확장했습니다.연구진은 건강, 사회경제, 환경을 포함하는 27개 과제에 걸쳐 보간, 외삽, 초해상도 문제에 대한 PDFM을 벤치마킹했습니다. 연구 결과, PDFM은 보간 분야에서 27개 작업 모두에서 최첨단 성능을 달성했으며, 외삽 및 초고해상도 작업 중 25개에서 최첨단 성능을 달성한 것으로 나타났습니다.연구진은 또한 PDFM을 최첨단 예측 기반 모델(TimesFM)과 결합하여 실업률과 빈곤율을 성공적으로 예측하고 완전 감독 예측 방법보다 우수한 성과를 낼 수 있음을 보여주었습니다.

관련 연구는 "인구 역학 기반 모델을 통한 일반 지리공간 추론"이라는 제목으로 arXiv에 게재되었습니다. 동시에 연구진은 모든 PDFM 임베딩과 샘플 코드를 GitHub에 공개하여 연구 커뮤니티가 이를 새로운 사용 사례에 적용하고 학술 연구와 실무를 더욱 강화할 수 있도록 했습니다.
PDFM 프로젝트 오픈 소스 주소:
https://github.com/google-research/population-dynamic

연구 하이라이트:

* 연구원들은 데이터 소스별로 임베딩 차원을 분할하는 분리된 임베딩 아키텍처를 도입하여 모델이 모든 입력을 처리하고 각 데이터에 대한 관련 정보를 유지하는 동시에 다운스트림 작업에 대한 데이터 소스 수준의 해석성을 제공할 수 있도록 했습니다.

* 연구자들은 PDFM을 사용하여 최첨단 예측 기반 모델인 TimesFM을 개선하고, 카운티 수준 실업률과 우편번호 수준 빈곤율에 대한 예측을 개선하는 방법을 시연했습니다. 유사한 접근 방식은 PDFM 임베딩을 사용하여 기존의 다른 지리공간 분류 및 회귀 모델을 향상시키는 데에도 사용될 수 있습니다.

* 보간, 외삽, 초고해상도 및 예측 작업에서 강력한 성능을 통해 연구원들은 PDFM이 과학 연구, 공공 복지, 공공 및 환경 건강, 상업 분야를 포함하여 지리공간 모델링이 필요한 다양한 응용 시나리오로 쉽게 확장될 수 있음을 입증했습니다.

서류 주소:
https://arxiv.org/abs/2411.07207

오픈소스 프로젝트인 "awesome-ai4s"는 100개가 넘는 AI4S 논문 해석을 모아 방대한 데이터 세트와 도구를 제공합니다.

https://github.com/hyperai/awesome-ai4s

데이터 세트: 5가지 공통 데이터 세트

PDFM을 개발하기 위해 연구진은 우편번호와 카운티 수준의 지리적 영역을 포괄하는 5개의 대규모 데이터 세트를 수집하고 구성했습니다.

① 통합 검색 트렌드:연구진은 2022년 7월의 처음 500개 쿼리에 대한 집계 수를 계산했으며, 이를 위해 각 우편번호 구역에서 최소 20회 검색이 필요했고, 그 결과 100만 개가 넘는 고유 쿼리가 생성되었습니다. 이러한 질의는 전국적 인기도에 따라 순위가 매겨졌으며, 이는 각 질의가 나타난 우편번호의 총 개수를 기준으로 측정되었습니다. 그 중에서 가장 흔한 1,000개 질의가 전국 우편번호 수준에서의 통합 검색 추세 활동을 대표하는 것으로 선택되었습니다.

② 맵 데이터셋(Maps):연구진은 2024년 5월 Google 지도에서 최소 5%의 우편번호 구역에 나타난 가장 일반적인 관심 지점 카테고리 1,192개를 선택했습니다. 각 카테고리는 광범위한 관심 지점 위치를 포괄합니다. 예를 들어, "의료 시설" 카테고리에는 소아병원과 대학병원이 포함됩니다. 그런 다음 각 지리적 경계 내에서 사용 가능한 시설의 총 수를 계산하고 우편번호와 카운티 수준에서 정규화된 1,192차원 특징 벡터를 생성했습니다.

③ 사업성 데이터 세트:연구진은 지도 데이터의 각 관심 지점 카테고리에 대해 한 달 동안 해당 카테고리의 관련 장소를 방문한 횟수의 합계를 계산하여 해당 카테고리의 바쁜 정도를 요약했습니다.

④ 날씨 및 대기 질:연구진은 날씨와 대기 질 데이터를 수집하고 2022년 7월의 시간별 데이터를 요약하여 평균, 최소, 최대값을 사용하여 설명했습니다. 변수의 전체 목록에는 다음이 포함됩니다: 평균 해수면 기압, 총 구름 덮개, 10m에서의 U형 바람 성분, 10m에서의 V형 바람 성분, 2m에서의 온도, 2m에서의 이슬점 온도, 태양 복사량, 총 강수량, 대기 질 지수, 일산화탄소 농도, 이산화질소 농도, 오존 농도, 이산화황 농도, 호흡 가능한 미세먼지(<10μm) 농도, 미세먼지(<2.5μm) 농도.

⑤ 원격탐사:연구진은 SatCLIP 모델의 ViT16-L40 버전에서 생성된 위성 이미지 임베딩 데이터를 결합하여 각 우편번호의 중심으로 색인된 임베딩을 얻었습니다. SatCLIP 모델은 전 세계적으로 사용 가능한 지오코더로 설계되었으며, 2021년 1월 1일부터 2023년 5월 17일까지의 Sentinel-2 위성 이미지에서 100,000개의 타일을 집계합니다.

연구자들은 데이터 세트를 그래프 신경망(GNN) 아키텍처와 결합하여 작업에 특화되지 않고 일반적인 임베딩을 생성하는 기본 모델을 훈련했습니다.

모델 아키텍처: GNN을 사용하여 공간 문제를 효율적이고 직관적으로 해결하기

PDFM 모델의 구성은 아래 그림과 같습니다. 1단계에서는연구자들은 데이터 세트를 그래프 신경망(GNN) 아키텍처와 결합하여 작업에 특화되지 않고 일반적인 임베딩을 생성하는 기본 모델을 훈련했습니다.2단계에서는이러한 임베딩과 해당 작업에 대한 구체적인 기준 데이터를 사용하여 다운스트림 모델(선형 회귀, 간단한 다층 퍼셉트론 또는 그래디언트 부스트 결정 트리 등)을 학습합니다. 이 모델은 보간, 외삽, 초해상도 및 예측을 포함한 다양한 작업에 적용할 수 있습니다.
* 보간 작업: 알려진 데이터 포인트의 값을 기반으로 알려지지 않은 데이터 포인트의 값을 추론하고 채우는 작업을 말합니다.

* 외삽 작업: 현재 알려진 범위를 넘어 상황, 추세 또는 결과를 예측하기 위해 기존 데이터 또는 경험을 외삽하는 작업
* 초고해상도 작업: 알고리즘을 통해 저해상도 이미지나 데이터를 고해상도로 업그레이드하는 과정을 말합니다.

그림: 기본 인구 역학 모델인 PDFM의 훈련 및 적용

구체적으로, PDFM 모델의 핵심은 위치 임베딩을 정보가 풍부한 저차원 수치 벡터로 인코딩하는 그래프 신경망(GNN)입니다. 이는 주로 다음의 5개 부분으로 구성되어 있습니다.

* 그래프 구성:연구자들은 카운티와 우편번호를 노드로 사용하고 이웃 관계를 통해 에지를 설정하는 이질적인 지리공간 그래프를 구축했습니다. 구성된 지리공간 그래프는 우편번호와 카운티 수준 노드를 동일한 유형의 노드 집합으로 처리하는 동질적인 노드 집합과 노드를 연결하는 서로 다른 유형의 에지를 갖는 이질적인 에지 집합을 갖습니다.
* 하위 이미지 샘플링:서브그래프 샘플링은 대규모 GNN을 훈련하기 위한 서브그래프를 생성하고 모델에 무작위성을 추가하기 위해 수행됩니다. 시드 노드에서 시작하여 너비 우선 방식으로 각 에지 집합을 탐색하고, 가중치가 적용된 방식으로 고정된 수의 노드를 샘플링하고, 홉이 4개에 도달하면 종료됩니다.

구체적으로, 연구자들은 시드 노드에서 시작하여 너비 우선 방식으로 각 에지 세트를 탐색하고, 가중치를 적용하여 고정된 수의 노드를 샘플링하고, 4홉 거리에 도달하면 종료했습니다. 이 접근 방식을 사용하면 우편번호와 카운티 수준 노드의 총 수와 동일한 수의 하위 그래프가 생성됩니다.

* 전처리:모든 피처에 열 단위 정규화가 적용되고, 피처 값 범위의 양 끝은 클리핑을 통해 압축됩니다.

* 모델링 및 훈련 세부 정보:GraphSAGE(귀납적 방법)는 노드 기능 정보를 활용하여 노드 임베딩을 학습하는 데 채택되었습니다. GraphSAGE는 지역 이웃 집계 정보로부터 임베딩을 생성하는 함수를 학습합니다. 집계 아키텍처의 경우 GraphSAGE에서 제안한 풀링 아키텍처가 사용되는데, 여기서는 이웃 노드의 노드 상태가 ReLU 변환을 통해 완전 연결 계층으로 전달되고, 변환된 기존 상태와 이웃 노드 상태는 요소별 합산을 통해 추가로 집계됩니다. 연구자들은 GraphSAGE 아키텍처를 사용하여 원샷 메시지 전달을 용이하게 하고, GNN 계층 뒤에 크기가 330인 선형 계층을 추가하여 노드 수준 표현을 압축 임베딩으로 인코딩했습니다.

* 하이퍼파라미터 튜닝:검증 세트는 20%의 시드 노드(카운티와 우편번호 포함)에서 균일하게 샘플링되어 드롭아웃 비율, 노드 임베딩 크기, GraphSAGE 히든 유닛과 레이어 수, 임베딩 크기, 정규화, 학습률을 포함한 튜닝 하이퍼파라미터를 형성합니다.

연구 결과: 보간, 외삽, 초해상도 및 예측 작업에서 강력한 성능 발휘

PDFM은 미국 본토 내의 다양한 지리공간적 과제를 해결할 수 있는 유연한 기본 모델링 프레임워크입니다. PDFM은 다양한 데이터 세트를 통합하여 27가지 건강, 사회경제, 환경 작업에 내장되어 SatCLIP 및 GeoCLIP과 같은 기존 최첨단(SoTA) 위치 인코딩 방식을 능가합니다.

보간 작업에서 PDFM은 27개 작업 모두에서 좋은 성과를 보였습니다. 외삽법과 초고해상도 작업에서는 25개 작업에서 선두를 달리고 있습니다. 또한 연구진은 PDFM 임베딩을 통해 TimesFM과 같은 예측 모델의 성능을 향상시켜 카운티 수준 실업률과 우편번호 수준 빈곤율과 같은 중요한 사회경제적 지표에 대한 예측을 개선할 수 있는 방법을 보여주었습니다.이는 연구, 사회 복지, 공중 및 환경 보건, 비즈니스 분야에서 광범위하게 응용될 수 있는 잠재력을 강조합니다.

구체적인 실험 결과는 다음과 같습니다.

① 보간 실험

아래 그림은 건강, 사회경제적 범주, 환경의 세 가지 범주에 속하는 27개 작업에 대한 완전 보간 실험의 결과를 보여줍니다. 다양한 모델의 성능은 ² 지표를 사용하여 평가됩니다(값이 높을수록 모델이 대상 변수 레이블의 분산을 더 잘 설명한다는 것을 나타냄). 그림에서 볼 수 있듯이 PDFM은 사회경제적 및 건강 작업 범주에서 SatCLIP과 GeoCLIP보다 상당히 우수한 성능을 보입니다.

그림: 보간² 결과(값이 높을수록 좋음)

아래 표는 소득, 주택 가치, 야간 조명, 인구 밀도, 수목 덮개, 고도, 건강(평균) 등 27가지 건강, 사회경제, 환경 과제를 PDFM이 얼마나 잘 보간하는지 보여줍니다. PDFM은 전체 27개 작업에 걸쳐 평균 0.83의 제곱을 기록하며 지속적으로 우수한 성과를 보이고 있으며, 21개 건강 관련 작업에 대한 평균 0.73의 제곱을 기록했습니다.

표: 보간² 결과(값이 높을수록 더 좋습니다). 실험에서는 다운스트림 모델로 GBDT를 사용하여 역거리 가중(IDW) 기반 보간, SatCLIP 임베딩, GeoCLIP 임베딩, PDFM 임베딩 및 하위 구성 요소(날씨 및 대기 질, 통합 검색 추세, 지도 및 혼잡도)의 성능을 비교합니다.

② 외삽 실험

아래 그림은 건강, 사회경제적 범주, 환경의 세 가지 범주에 속하는 27개 과제에 대한 완전한 외삽 실험 결과를 보여줍니다. 모델 성능은 여전히 ² 지표를 사용하여 평가됩니다. 그림에서 볼 수 있듯이 GeoCLIP은 환경적 과제를 처리하는 데 약간의 이점이 있지만, PDFM은 건강 및 사회경제적 변수를 예측하는 데 있어 다른 모든 기준 모델보다 상당히 우수한 성능을 보입니다.

그림: 외삽법² 결과 (값이 높을수록 좋음)

외삽 작업은 라벨이 지정된 데이터가 크게 부족하기 때문에 어려운 작업입니다. 이 경우 PDFM은 아래 표에서 볼 수 있듯이 모든 지표에서 평균 제곱값이 0.70이고 건강 관련 지표에서 0.58로 뛰어난 성능을 보여줍니다. 지오태그가 지정된 이미지를 사용하여 GeoCLIP은 삼림 피복(TreeCover) 예측에서 우수한 성능을 발휘하여 ² =0.69를 달성하여 PDFM 및 모든 단일 모달리티를 능가합니다. 그러나 전반적으로 PDFM은 27개 작업 중 25개에서 기준 모델보다 우수한 성과를 보였으며, 이는 외삽 시나리오에서의 효과성을 강조합니다.

표: 외삽법² 결과 (값이 높을수록 좋음)

③ 초고해상도 실험

아래 그림은 카운티 내 평균 피어슨 상관 계수(r)를 지표로 사용하여 건강, 사회경제적 범주, 환경별로 그룹화된 27개 작업에 대한 초고해상도 실험의 전체 결과를 보여줍니다(값이 높을수록 모델의 예측이 우편번호 수준에서 실제 레이블과 더 높은 상관관계가 있음을 나타냄).

그림: 피어슨 상관 계수 평균 결과(값이 높을수록 좋음)

초고해상도 작업은 더 어렵습니다. 결과는 아래 표에 요약되어 있습니다. IDW는 표고 작업에서 가장 좋은 성과를 거두고, GeoCLIP은 삼림 피복 작업에서 가장 좋은 성과를 거두었습니다. 전반적으로 PDFM은 27개 작업 중 25개 작업에서 우수한 성과를 보였으며, 평균 피어슨 상관 계수는 0.48이었습니다.

표: 피어슨 상관 계수 평균 결과 (값이 높을수록 좋음)

④ 예측 과제

연구진은 또한 TimesFM(일반 단변량 예측 기반 모델)의 예측 오류를 수정하기 위해 PDFM 임베딩을 사용하는 효과성을 평가했으며, 주된 목표는 미래 시간 범위(6개월 실업률 예측 및 2년 빈곤율 예측)에서 이러한 임베딩이 얼마나 개선되는지 평가하는 것이었습니다. 아래 표의 결과는 PDFM 임베딩을 결합한 모델이 MAPE 지표 측면에서 TimesFM의 기준 성능을 능가하고 ARIMA보다 더 우수함을 보여줍니다. 즉, PDFM 임베딩이 TimesFM의 예측 효과를 크게 향상시킬 수 있음을 보여줍니다.

표: 예측 실험 결과

연구진은 미국 내 카운티 단위 실업률과 우편번호 단위 빈곤율을 기준으로 성과를 평가하고 표에 평균 절대 백분율 오차(MAPE)를 제시했으며, 값이 낮을수록 성과가 더 좋음을 나타냅니다.

지리공간 인공지능(GeoAI)이 붐을 일으키고 있습니다.

PDFM 모델의 탄생은 공간 데이터에 대한 또 다른 심층적인 탐구와 활용으로 볼 수 있습니다. 지리공간 데이터는 다양한 출처에서 다양한 형식으로 수집된 방대한 양의 시공간 데이터를 말합니다. 여기에는 인구 조사 데이터, 위성 사진, 날씨 데이터, 휴대전화 데이터, 지도 이미지, 소셜 미디어 데이터가 포함될 수 있습니다. 과학적인 방법으로 공간 데이터를 공유, 분석, 활용하면 실업률, 주택 가격 예측, 특정 약물의 영향 시뮬레이션, 재난 후 인구 이동 등 인간 사회의 발전에 대한 많은 유용한 통찰력을 얻을 수 있습니다.

하지만 방대한 양의 공간 데이터를 효과적으로 처리하는 방법은 어려운 과제입니다.인공 신경망 모델이 등장하면서 공간 인공지능(GeoAI)이라는 개념이 생겨났고, 업계에서도 이와 관련하여 많은 연구가 진행되었습니다.

예를 들어, 2024년 4월, 저장대학교 연구팀은 광물화 예측 모델의 해석성과 광물화 과정에서 지질학적 요인으로 인해 발생하는 공간적 비정상성을 개선하기 위해 새로운 지공간 인공지능 방법인 지리 신경망 가중 로지스틱 회귀(GNNWLR)를 제안했습니다. 이 모델은 공간 패턴과 신경망을 통합하고, 샤플리의 가산적 해석 이론과 결합하면 예측의 정확도를 크게 향상시킬 수 있을 뿐만 아니라 복잡한 공간 시나리오에서 광물 예측의 해석 가능성도 개선할 수 있습니다.

자세한 보고서를 보려면 클릭하세요: 저장대학교 Du Zhenhong 팀이 제안한 GNNWLR 모델은 5개의 고급 모델보다 우수합니다. 광화 예측 정확도 향상

2024년 6월, 저장대학교 GIS 연구실 연구진은 "지리적 가중 회귀 분석에서 공간적 근접성 측정을 최적화하기 위한 신경망 모델: 우한의 주택 가격에 대한 사례 연구"라는 제목의 연구 논문을 지리정보과학 분야의 유명 학술지인 국제지리정보과학 저널에 게재했습니다. 그들은 관측 지점 간의 여러 공간적 근접성 측정(유클리드 거리, 이동 시간 등)을 비선형적으로 결합하여 최적화된 공간적 근접성 측정(OSP)을 얻는 신경망 방법을 혁신적으로 도입하여 주택 가격에 대한 모델의 예측 정확도를 향상시켰습니다. 우한의 주택 가격에 대한 시뮬레이션 데이터 세트와 실증적 사례를 연구한 결과, 본 논문에서 제안한 모델은 전 세계적으로 더 나은 성능을 보이며 복잡한 공간적 과정과 지리적 현상을 더 정확하게 설명할 수 있음이 입증되었습니다.
자세한 보고서를 보려면 클릭하세요: 우한 주택 가격에 대한 정확한 예측! 저장대학교 GIS 연구실은 osp-GNNWR 모델을 제안했습니다. 이는 복잡한 공간 과정과 지리적 현상을 정확하게 설명합니다.

앞으로 인공지능 기술이 끊임없이 발전함에 따라 지리정보산업은 더욱 튼튼한 기술 기반과 더욱 편리한 개발 도구를 갖추게 될 것이며, 이를 통해 인류는 지리공간 지능화 시대로 나아가게 될 것입니다.

참고문헌:
1.https://arxiv.org/abs/2411.07207
2.https://research.google/blog/insights-into-population-dynamics-a-foundation-model-for-geospatial-inference/
3.https://www.ibm.com/cn-zh/topics/geospatial-data
4.https://mp.weixin.qq.com/s/eQz5N-cFTtGIkDk7IqMZxA
5.https://www.xinhuanet.com/science/2