HyperAI초신경

우한 주택 가격을 정확하게 예측하세요! 저장대학교 GIS 연구실은 Osp-gnnwr 모델을 제안했습니다. 이는 복잡한 공간 과정과 지리적 현상을 정확하게 설명합니다.

特色图像

주택은 인간의 복지와 사회 발전에 중요한 부분이며, 주택 가격 변동은 사회에서 폭넓은 관심을 받고 있습니다. 중국은 지리적으로 매우 넓은 나라입니다. 같은 도시의 같은 관할구역이라 하더라도 지역사회 환경, 학군, 지원 사업 등의 요인에 따라 지역마다 주택 가격이 다릅니다. 따라서 주택가격 연구에 있어서 중요한 연구 주제 중 하나는 주택가격의 공간적 분화와 이에 영향을 미치는 메커니즘, 즉 소위 '공간적 이질성'입니다.

최근 들어 주택 가격의 공간적 차이가 점점 더 커졌고, 단일 거리 측정 방법으로는 복잡한 지리적 환경에서 주택 가격의 "공간적 이질성"을 포착하기에 충분하지 않습니다. 특히 우한과 같은 대도시에서는 강, 호수와 같은 자연적 특징과 다리, 터널, 다층 도로망과 같은 도시 기반 시설과 같은 요소가 주택 가격에 복합적인 영향을 미칩니다.기존의 지리적 가중 회귀(GWR) 모델은 공간적 근접성을 측정하는 데 어려움을 겪습니다.

이러한 맥락에서, 저장대학교 GIS연구실 연구진은 "지리적 가중 회귀 분석에서 공간적 근접성 측정을 최적화하기 위한 신경망 모델: 우한 주택 가격에 대한 사례 연구"라는 제목의 연구 논문을 지리정보과학 분야의 유명 학술지인 국제지리정보과학저널에 게재했습니다.

본 연구에서는 관측 지점 간의 여러 공간적 근접성 지표(유클리드 거리, 이동 시간 등)에 대해 비선형 결합을 수행하는 신경망 방법을 혁신적으로 도입하여 최적화된 공간적 근접성 지표(OSP)를 얻었고, 이를 통해 주택 가격에 대한 모델의 예측 정확도를 향상시켰습니다.

추상적인 "공간적 근접성"이 손실 함수를 구성할 수 없고 신경망을 학습하기 어려운 문제를 해결하기 위해,이 연구에서는 OSP와 지리적 신경망 가중 회귀(GNNWR) 방법을 결합했습니다.osp-GNNWR 모델은 종속변수와 독립변수 간의 공간적 비정상 회귀 관계를 풀어 신경망의 학습을 실현하기 위해 구성되었습니다.

연구 하이라이트:

  • 최적화된 공간적 근접성 측정 기준을 도입하고 이를 신경망 아키텍처에 통합함으로써 주택 가격과 같은 지리적 과정의 공간 분포를 연구할 때 지리적 가중 회귀 분석의 적용성이 효과적으로 향상되었습니다.
  • 우한의 주택 가격에 대한 시뮬레이션 데이터 세트와 실증적 사례를 연구한 결과, 본 논문에서 제안한 모델은 전 세계적으로 더 나은 성능을 보이며 복잡한 공간적 과정과 지리적 현상을 더 정확하게 설명할 수 있음이 입증되었습니다.
  • 이는 다양한 지리공간 회귀 모델의 성능을 개선하기 위해 공간 근접성 측정 항목을 사용자 정의하는 방법을 연구하는 새로운 길을 열어줍니다.

서류 주소:
https://www.tandfonline.com/doi/full/10.1080/13658816.2024.2343771

오픈소스 프로젝트인 "awesome-ai4s"는 100개가 넘는 AI4S 논문 해석을 모아 놓았으며, 방대한 데이터 세트와 도구도 제공합니다.

https://github.com/hyperai/awesome-ai4s

데이터 세트: 우한은 전형적인 연구 지역으로 사용됩니다.

시뮬레이션된 데이터 세트

연구진은 osp-GNNWR 모델의 적합 정확도를 평가하기 위해 64×64 공간적으로 이질적인 시뮬레이션 데이터 세트를 생성했습니다. 시뮬레이션된 데이터 세트의 공간적 이질성은 직선 거리에만 반영되는 것이 아니라 비유클리드 거리로 정의된 공간적 분포 특성도 보여주는데, 이는 OSP의 효과를 입증할 수 있습니다.

실제 데이터 세트

후베이성의 성도인 우한은 중국 중부, 한강과 양쯔강이 합류하는 지점에 위치하고 있습니다. 우한은 습한 아열대 기후에 강수량이 풍부하고 강, 호수, 연못이 많아 공간적 근접성을 평가하기 어렵습니다. 중국 중부에서 가장 크고 인구 밀도가 높은 도시인 우한은 활발한 부동산 시장을 보유하고 있으며, 이는 우한의 특정 부동산 동향에 대한 포괄적인 모델을 구축하는 데 충분한 데이터를 제공합니다.

연구 지역 및 데이터 세트

이를 위해,연구진은 968개의 다양한 부동산 샘플을 포함하는 데이터 세트를 수집했습니다.이 자료는 2019년 우한시의 중고주택 거래실적을 바탕으로 작성되었으며, 자료출처는 안죽커(Anjuke)이다.https://wuhan.anjuke.com). 모든 기록이 정리되었고, 특수한 부동산 유형(예: 빌라)이 제외되었으며, 데이터 품질이 보장되었습니다.

모델 아키텍처: 최적화된 공간 근접성 측정법을 도입하고 이를 신경망에 통합

osp-GNNWR 모델의 구성은 두 단계로 나뉩니다.

1단계: 최적화된 공간 근접성 측정(OSP) 얻기

복잡한 지리적 분석에서 더욱 정확한 공간적 근접성 측정값을 얻기 위해 본 연구에서는 유클리드 거리, 맨해튼 거리, 이동 시간 등 여러 거리 측정 방법을 통합하여 공간적 근접성(OSP)을 최적화했습니다. 이러한 방식으로 최적화된 공간 근접성 측정은 복잡한 공간 관계에 영향을 미치는 다양한 요인을 더 잘 반영할 수 있으며, 이를 통해 공간 회귀 모델의 적합성과 설명력을 향상시킬 수 있습니다.

2단계: 연구진은 OSP와 GNNWR을 더욱 결합하여 osp-GNNWR 모델을 제안했습니다.다음 그림과 같이:

osp-GNNWR 모델 설계

구체적으로 osp-GNNWR 모델의 학습 및 검증 절차는 다음과 같습니다.

osp-GNNWR 모델의 학습 단계

1단계:회귀 모델을 구축하기 위해 종속 변수와 독립 변수를 추출합니다.

2단계:데이터 세트는 적절한 비율로 훈련 세트, 검증 세트, 테스트 세트로 무작위로 나뉩니다.

3단계:샘플 거리는 osp-GNNWR 모델에서 공간 정보로 계산됩니다.

4단계:입력 변수와 공간 정보를 사용하여 네트워크 구조와 하이퍼 매개변수를 포함하는 osp-GNNWR 모델이 설정됩니다.

5단계:학습 세트에서 미니 배치 데이터를 가져오고, 경사 하강 알고리즘을 사용하여 학습하고, 평균 제곱 오차(MSE)를 손실 함수로 사용하는 등 적합성을 평가합니다.

6단계:현재 시대가 완전한지 평가합니다. 그렇지 않은 경우 5단계로 돌아가세요.

7단계:과잉 맞춤이 있는지 확인하기 위해 검증 세트의 손실 함수를 평가합니다. 이전의 가장 좋은 결과보다 손실이 개선되면 새로운 우수한 모델을 유지합니다. 그렇지 않으면 과적합 허용 범위 수를 늘립니다.

8단계:과적합 허용 범위 또는 최대 에포크 수(최대 에포크)에 도달했는지 평가합니다. 한계에 도달하면 학습이 중단되고 테스트 세트를 사용하여 최신 우수 모델을 평가합니다. 그렇지 않으면 5단계부터 반복을 계속합니다.

위의 단계를 통해 연구자들은 osp-GNNWR 모델을 효과적으로 훈련하고 검증하여 복잡한 공간 관계의 이질성을 포착하고 설명하고 모델의 정확도와 신뢰성을 개선할 수 있습니다.

연구 결과: osp-GNNWR 모델이 더 나은 글로벌 성능을 보였습니다.

먼저, 시뮬레이션된 데이터 세트를 기반으로 한 분석 결과를 살펴보겠습니다. 유클리드 거리와 Z-오더 거리를 기반으로 한 시뮬레이션 데이터 세트에서 연구자들은 비교를 위해 OLS, GWR, GNNWR 및 osp-GNNWR을 포함한 모델을 사용했습니다. 결과는 다음 표에 나와 있습니다.

osp-GNNWR 및 기타 비교 모델의 시뮬레이션 데이터 세트에 대한 실험 결과
  • R²: 한 변수(종속 변수)의 변화 중 얼마나 많은 부분이 다른 변수(독립 변수)의 변화에 의해 설명될 수 있는지를 측정한 값입니다. 이 값은 선형 회귀 분석에서 모델의 적합도를 평가하는 데 자주 사용됩니다. 0%는 모델이 평균을 중심으로 한 반응 변수의 변화를 설명할 수 없음을 의미합니다. 즉, 모델과 데이터 간에 관계가 거의 없습니다. 100%는 모델이 평균을 중심으로 한 반응 변수의 모든 변화를 설명할 수 있음을 의미합니다. 즉, 모델이 데이터에 완벽하게 부합한다는 의미입니다.
  • RMSE(제곱평균제곱근오차): 관측값과 실제값의 편차를 측정하는 데 사용됩니다. 값이 작을수록 모델의 예측 정확도가 높아집니다.
  • MSE(평균 절대 오차): 모델의 예측 값과 실제 값 사이의 평균 절대 편차를 측정하는 데 사용됩니다. 값이 작을수록 모델의 예측 정확도가 높아집니다.

훈련 데이터 세트나 테스트 데이터 세트에서 osp-GNNWR 모델은 더 높은 R², 더 낮은 RMSE 값, 더 낮은 MSE 값을 가지므로 더 나은 성능을 보입니다. 이러한 시뮬레이션 실험 결과는 osp-GNNWR 모델에 사용된 SPNN 네트워크가 우수한 일반화 능력과 입력 거리를 처리할 때 매우 정확한 피팅 효과를 가지고 있음을 보여줍니다. 따라서 유클리드 거리에만 의존하는 기존 방법과 비교했을 때,osp-GNNWR 모델은 실제 지리적 과정의 공간적 이질성을 묘사하는 데 잠재적인 이점을 가지고 있습니다.

두 번째는 우한의 실제 주택 가격 데이터를 기반으로 한 osp-GNNWR 모델의 성능입니다. 다음 표는 OLS, GWR, GNNWR 및 osp-GNNWR 모델의 성능 비교 결과를 보여줍니다.

osp-GNNWR 및 기타 비교 모델의 우한 주택 가격 데이터 세트에 대한 실험 결과

마찬가지로 osp-GNNWR 모델은 훈련 데이터 세트와 테스트 데이터 세트 모두에서 더 높은 R², 더 낮은 RMSE 값, 더 낮은 MSE 값을 보여 더 나은 성능을 보였습니다.

GNNWR(TD)와 비교했을 때 osp-GNNWR 모델은 테스트 데이터 세트의 R²를 0.737에서 0.793으로 개선하고 RMSE를 0.168에서 0.149로, MAE를 0.125에서 0.109로 줄이는 것으로 나타났습니다. 이러한 결과는 다음을 나타냅니다.OSP를 통합하면 osp-GNNWR 모델의 적합성과 예측 성능이 향상됩니다.따라서 이 접근 방식은 연구된 모델 중에서 가장 효과적인 접근 방식입니다.

  • GNNWR(TD): 이동 시간을 근접성 측정 기준으로 사용하는 GNNWR 모델입니다.

구체적으로는 장샤구 탕쉰호 서안, 채뎬구 후궁호 기슭, 한강과 장강 합류지 등 자연경관과 인프라가 복잡한 지역, 홍산구, 신저우구 등 도로망이 잘 발달되어 있고 실제 공간적 근접성과 물리적 거리 차이가 큰 신흥 개발구 등이다.osp-GNNWR 모델의 잔차는 다른 모델보다 현저히 작아서 예측 정확도가 더 높음을 보여줍니다.

전반적으로, 이 연구의 결과는 OSP가 osp-GNNWR 모델의 공간적 이질성을 표현하는 능력을 향상시키는 데 효과적임을 강조하며, 이를 통해 부동산 시장 내의 복잡한 공간적 관계에 대한 모델링을 발전시킬 수 있음을 보여줍니다.

딥러닝은 복잡한 주택 가격 예측 문제에 도움이 됩니다.

주택가격의 공간적 차별화 원인과 영향 메커니즘을 탐구하는 것은 부동산 시장의 안정적인 발전을 유지하고 도시 계획과 주거 만족도를 높이는 데 매우 중요한 의의를 갖습니다. 그러나 주택 가격 예측은 지리적 위치, 교통 편의성, 학군, 주택 연식, 주택 유형 등 여러 요소가 관련된 매우 복잡한 문제입니다. 전통적인 방법은 종종 통계와 머신 러닝을 기반으로 하지만 이러한 방법은 증가하는 데이터 규모와 복잡성을 처리하는 데 어려움을 겪습니다. 딥러닝은 강력한 기능 학습 및 분류 기능을 갖추고 있어 이러한 문제를 더 잘 처리할 수 있습니다.

주택가격 예측의 정확도를 높이기 위해 업계의 연구는 주로 다음과 같은 방향으로 진행됩니다.

하나는 혼합 모델 접근 방식입니다.즉, 딥 러닝과 전통적인 머신 러닝 방법을 결합하여 각각의 장점을 최대한 활용하는 것입니다. 예를 들어, 딥 러닝을 SVM(지원 벡터 머신)이나 랜덤 포레스트와 같은 기존 머신 러닝 방법과 결합하여 주택 가격 예측을 위한 하이브리드 모델을 구축할 수 있습니다.

두 번째는 시계열 데이터를 고려하는 것입니다.즉, 주택 가격 예측에서는 주택의 정적인 속성을 고려하는 것 외에도 과거 주택 가격, 경제 지표 등의 시계열 데이터도 고려할 수 있으며, 순환 신경망(RNN)과 같은 방법을 사용하여 분석 및 예측할 수 있습니다.

예를 들어,일부 연구자들은 구글 특허에서 주의 메커니즘을 기반으로 한 합성곱 시계열 주택 가격 예측 방법을 도입했습니다.연구진은 먼저 주택 가격 데이터 세트를 사전 처리하고 주택 가격과 관련된 다차원 요인의 시계열을 얻었습니다.

주택 가격에 영향을 미치는 다차원 관련 요소, 주택 가격 추세의 변동 및 영향을 고려하여 주의 메커니즘을 기반으로 한 합성 시계열 신경망을 사용하여 주택 가격을 예측합니다. 1차원 합성곱 신경망을 사용하여 다차원 관련 요소의 특징을 처리하고, 추가적인 특징 추출 및 차원 축소를 거쳐 다차원 특징 벡터를 얻습니다. 그런 다음 특징 벡터를 장기 단기 메모리 모델에 입력하여 특징 간의 장기 전체 추세와 단기 지역 종속성 정보를 학습합니다.

이 방법은 주택가격 시계열 예측의 장기적인 전체 추세와 단기적인 지역적 정보를 결합하여 주택가격 예측의 분산을 줄이고 다차원 시계열 데이터에 기반한 주택가격 예측 방법의 일반화 능력을 향상시킵니다.

세 번째는 지리정보시스템(GIS)의 적용이다.딥러닝을 지리정보시스템(GIS)과 결합하여 지리적 위치와 같은 요인이 주택 가격에 미치는 영향을 분석하고 모델의 예측 정확도를 개선합니다. 위에서 언급한 osp-GNNWR 모델이 대표적인 예입니다.

AI의 지원으로 주택 가격 예측 모델은 더욱 신뢰성 있고 정확해질 것입니다. 이를 통해 부동산 회사는 투자 리스크를 줄일 수 있다. 정부는 주택 정보를 완벽하고 정확하게 통제하여 목표 지향적인 관리를 실시하고, 좋은 부동산 환경을 공동으로 조성하며, 국민이 진정으로 평화롭고 만족스럽게 생활하고 일할 수 있도록 도울 수 있습니다.

참고문헌:
1.https://www.tandfonline.com/doi/full/10.1080/13658816.2024.2343771
2.https://mp.weixin.qq.com/s/P4nk5sl2v60Q5DeVrOfWLw
3.https://cloud.baidu.com/article/1892933
4.https://patents.google.com/pate