HyperAI

Kleines Modell, Großer Durchbruch! Neuronale Netze Durchschauen Räumliche Heterogenität Und Beschreiben Komplexe Geografische Phänomene Präzise

特色图像

Förderung der Universalisierung von AI4S, die Verbreitungsbarrieren wissenschaftlicher Forschungsergebnisse akademischer Einrichtungen zu verringern und eine Kommunikationsplattform für mehr Wissenschaftler, Technologiebegeisterte und Industrieeinheiten bereitzustellen,HyperAI hat die Live-Übertragungsreihe „Meet AI4S“ geplant.Laden Sie Forscher oder verwandte Einheiten ein, die sich intensiv mit dem Bereich KI für die Wissenschaft beschäftigen, ihre Forschungsergebnisse, Methoden und Ideen in Form von Videos zu teilen.

In der ersten Folge der Live-Übertragungsreihe „Meet AI4S“Wir fühlen uns geehrt, Ding Jiale, einen Doktoranden für Fernerkundung und Geographische Informationssysteme von der Zhejiang-Universität, eingeladen zu haben.Das Schlüssellabor für Ressourcen- und Umweltinformationssysteme der Provinz Zhejiang, wo er arbeitet, hat eine Reihe hochkarätiger Forschungsergebnisse in nationalen Hightech-Bereichen wie digitalen Erd- und geografischen Informationssystemen, Fernerkundung und globalen Positionierungssystemen veröffentlicht.

Dieses Teilen,Dr. Ding Jiale hielt eine Rede mit dem Titel „Neuronale Netzwerke liefern neue Erklärungen für die räumliche Heterogenität von Immobilienpreisen“.Hat seine neuesten Forschungsergebnisse geteilt. Diese Studie kombinierte außerdem ein durch ein neuronales Netzwerk optimiertes räumliches Nähemaß (OSP) mit der gewichteten Regressionsmethode geografischer neuronaler Netzwerke, um das osp-GNNWR-Modell zu erstellen. Durch Lösen der räumlichen nichtstationären Regressionsbeziehung zwischen der abhängigen Variable und der unabhängigen Variable wird das Training des neuronalen Netzwerks realisiert, das komplexe räumliche Prozesse und geografische Phänomene genauer beschreiben kann.

Klicken Sie hier, um die vollständige Live-Wiederholung anzuzeigen ⬇️

https://www.bilibili.com/video/BV14W42197on

HyperAI hat die ausführlichen Ausführungen von Dr. Ding Jiale zusammengestellt und zusammengefasst, ohne die ursprüngliche Absicht zu verletzen.

Förderung der Zukunft der Wissenschaft aus der Perspektive der Modellinterpretierbarkeit

Wenn das von uns entwickelte Modell lediglich die Immobilienpreise vorhersagen kann, erscheinen mir als Forscher der Geowissenschaften solche Ergebnisse langweilig.Unser Ziel ist es, eine vernünftige wissenschaftliche Erklärung geografischer Prozesse oder Muster zu finden, indem wir eine Reihe von Regressionskoeffizienten verwenden, die von diesen Modellen ausgegeben werden und je nach räumlichem Standort variieren.Eine solche Forschung ist zukunftsorientierter und praxisorientierter. Auf Grundlage dieser Vision habe ich mich entschieden, heute das Thema „Neuronale Netze liefern neue Erklärungen für die räumliche Heterogenität der Immobilienpreise“ vorzustellen.

Vor einiger Zeit veröffentlichte unser Team im International Journal of Geographical Information Science, einer renommierten Zeitschrift auf dem Gebiet der Geoinformationswissenschaft, eine Forschungsarbeit mit dem Titel „Ein neuronales Netzwerkmodell zur Optimierung der Messung der räumlichen Nähe im geografisch gewichteten Regressionsansatz: eine Fallstudie zu Hauspreisen in Wuhan“.
Papieradresse:
https://www.tandfonline.com/doi/full/10.1080/13658816.2024.2343771

In dieser Studie haben wir eine Methode mit neuronalen Netzwerken eingeführt, um mehrere räumliche Näherungsmaße (wie euklidische Distanz, Reisezeit usw.) zwischen Beobachtungspunkten nichtlinear zu koppeln.Das optimierte räumliche Nähemaß (OSP) wird ermittelt, wodurch die Genauigkeit der Immobilienpreisvorhersage des Modells verbessert wird.

Um die Probleme zu lösen, dass abstrakte „räumliche Nähe“ keine Verlustfunktionen konstruieren kann und neuronale Netzwerke schwer zu trainieren sind, kombinieren wir OSP zusätzlich mit der Methode der geographisch neuronalen gewichteten Regression (GNNWR).Das osp-GNNWR-Modell wurde erstellt.Das Training des neuronalen Netzwerks wird durch Lösen der räumlichen nichtstationären Regressionsbeziehung zwischen der abhängigen Variable und der unabhängigen Variable erreicht. Letztendlich zeigte sich, dass das Modell insgesamt eine bessere Leistung aufweist und komplexe räumliche Prozesse und geografische Phänomene genauer beschreibt.

Als nächstes werde ich dieses Ergebnis als Beispiel verwenden, um Ihnen den spezifischen Prozess zu erläutern, wie neuronale Netzwerke neue Erklärungen für die räumliche Heterogenität der Immobilienpreise liefern.

Forschungshintergrund: Wissenschaftliche Forschungsdurchbrüche unter doppelter Herausforderung

„Räumliche Heterogenität“ ist ein Schlüsselfaktor für Schwankungen der Immobilienpreise, doch eine einzelne Methode zur Entfernungsmessung reicht nicht aus, um die „räumliche Heterogenität“ der Immobilienpreise in einem komplexen geografischen Umfeld zu erfassen. Auch das traditionelle geografisch gewichtete Regressionsmodell (GWR) steht bei der Messung räumlicher Nähe vor Herausforderungen. Aufgrund dieser Faktoren haben wir uns entschieden, diese Studie durchzuführen.

Räumliche Heterogenität: Unterschiedliche Ausdrucksformen in unterschiedlichen Räumen

Lassen Sie mich Ihnen zunächst einige Hintergrundinformationen zur räumlichen Heterogenität und zur geografisch gewichteten Regression geben.

Das gewöhnliche lineare Regressionsmodell OLS ist die am häufigsten verwendete und grundlegende statistische Methode zur Bestimmung der Regressionsbeziehung von Variablen. Es verwendet eine sehr prägnante Formel, um die Beziehung zwischen der abhängigen Variable und mehreren unabhängigen Variablen zu beschreiben. Wie in der folgenden Abbildung gezeigt, ist y gleich einem Achsenabschnittsterm plus dem Produkt mehrerer Regressionskoeffizienten und unabhängiger Variablen.

Wenn wir statistische Methoden wie OLS auf die Geographie anwenden,Oft ist es notwendig, die inhärenten räumlichen Merkmale einiger geografischer Probleme zu berücksichtigen.Dies führte zu verwandter Forschung zur räumlichen Statistik und raumzeitlichen Modellierung.

Das gewöhnliche lineare Regressionsmodell geht davon aus, dass der Regressionskoeffizient unabhängig von der räumlichen und zeitlichen Position der Stichprobendaten ist und der berechnete Koeffizient der unabhängigen Variablen auf dem Durchschnittsniveau des Untersuchungsgebiets liegt.

Aber,Die Regressionsbeziehung in realen geografischen Prozessen zeigt Unterschiede an verschiedenen räumlichen Standorten.Am Beispiel der Immobilienpreise sind die Haupteinflussfaktoren eines Hauses gleicher Größe im Stadtzentrum und in den Vororten unterschiedlich, sodass ihre Regressionsbeziehungen auch unterschiedliche Formen aufweisen.Wir nennen diese Eigenschaft räumliche Heterogenität (räumliche Nichtstationarität).

Räumliche Heterogenität ist ein inhärentes Merkmal bei der Beschreibung der Beziehung zwischen geografischen Elementen und stellt den unterschiedlichen Ausdruck der Beziehung oder Struktur geografischer Elemente an unterschiedlichen Orten und zu unterschiedlichen Zeiten dar. Dies bedeutet, dass der Mechanismus zur Datengenerierung an verschiedenen räumlichen Standorten unterschiedlich ist, was sich in Form entsprechender Regressionsmodelle manifestiert, oder dass sich die Parameter mit dem räumlichen Standort ändern.

Geografisch gewichtete Regression: Transformation von räumlicher Nähe zu Gewichten über die Kernelfunktion

Die geographisch gewichtete Regression (GWR) ist eine vom amerikanischen Akademiker A. Stewart Fotheringham vorgeschlagene Modellierungsmethode für räumlich heterogene Prozesse.

Aus der Formel in der folgenden Abbildung können wir ersehen, dass die Gesamtform von GWR zwar immer noch eine lineare Regressionsbeziehung ist, ihr Achsenabschnittsterm und ihr Regressionskoeffizient jedoch zu einer Abbildungsbeziehung mit der Koordinatenposition (ui, vi) geworden sind. Das heißt, an unterschiedlichen Koordinatenpositionen ist die Regressionsbeziehung unterschiedlich.Auch die durch die gesamte Formel wiedergegebene Regressionsbeziehung ändert sich bei unterschiedlichen räumlichen Positionen.

Die Regressionskoeffizienten für GWR sind schwer zu bestimmen.Die derzeit am häufigsten verwendete Lösungsmethode ähnelt OLS, das zur Lösung eine Methode der gewichteten kleinsten Quadrate verwendet.

In der Formel in der folgenden Abbildung wird die diagonale Gewichtsmatrix W zum Gewichten der Stichproben verwendet, die die räumliche Korrelation zwischen den unabhängigen Variablen widerspiegeln kann. Speziell,Die Gewichte zwischen den Proben werden basierend auf der räumlichen Nähe der Proben berechnet.Je näher zwei Punkte im Raum beieinander liegen, desto stärker ist die Korrelation. Wir werden ihm ein größeres Gewicht zuweisen und es zum Erstellen eines Modells verwenden.

Wie gelingt die Umrechnung von räumlicher Nähe in Gewicht?GWR verwendet eine Kernelfunktion, beispielsweise die Gaußsche Kernelfunktion, die Biquadrat-Kernelfunktion usw., um die räumliche Nähe in ein Gewicht umzuwandeln und so die Konstruktion der gewichteten Gleichung zu realisieren. Dieser Ansatz weist jedoch gewisse Einschränkungen auf.

In der Vergangenheit bestand der Schlüssel zur Modellierung räumlich heterogener Prozesse darin, die räumlich-zeitliche Gewichtungskernelfunktion basierend auf der räumlich-zeitlichen Näherungsmessung zu entwerfen und zu konstruieren und dann die lokal gewichtete Regressionstheorie zu verwenden, um die nichtstationäre Ziellösungsfunktion zu ermitteln. Durch die optimale Lösung der Modellbewertungskriterien gelang die geographische Modellierung raumzeitlicher nichtstationärer Zusammenhänge.
Die bestehende Forschung zu dieser Methode konzentriert sich auch auf die Verfeinerung des Anwendungsbereichs von Kernelfunktionen und die anschließende Erstellung eines hybriden Kernelmodells mit mehreren Bandbreitenparametern.Die Verbesserung und Weiterentwicklung der Struktur der Kernelfunktion selbst wird jedoch ignoriert:Beispielsweise ist das vorhandene Kernelfunktionsstruktursystem mit Einzelparameteranalyse als Kern relativ einfach und es ist schwierig, die komplexe Auswirkung der räumlich-zeitlichen Nähe auf die räumlich-zeitlichen Gewichte vollständig abzuschätzen, was dazu führt, dass die räumlich-zeitlichen nichtstationären Eigenschaften komplexer geografischer Beziehungen nicht genau gelöst werden können.

Angesichts der kontinuierlichen Entwicklung von Big Data in den letzten Jahren sollten wir die Vorteile massiver Datenmengen in der Big-Data-Umgebung voll ausschöpfen und die nichtlineare Anpassungsfähigkeit tiefer neuronaler Netzwerke effizient nutzen.Die Verwendung neuronaler Netzwerke zur Erklärung räumlicher Heterogenität ist eine praktikable Lösung für das aktuelle Entwicklungsdilemma von Methoden zur Modellierung räumlich-zeitlicher Beziehungen.

Wie können neuronale Netzwerke genutzt werden, um räumliche Heterogenität zu berücksichtigen?

Fusion von SWNN, GNNWR hat eine stärkere Generalisierungsfähigkeit

Zuvor haben wir ein geographisches, neuronales Netzwerk-gewichtetes Regressionsmodell GNNWR vorgeschlagen, das ein tiefes neuronales Netzwerk (räumlich gewichtetes neuronales Netzwerk SWNN) verwendet, um den Proben an jedem Standort eine Reihe räumlicher Gewichte zuzuweisen.
GNNWR-Papieradresse:
https://doi.org/10.1080/13658816.2019.1707834

Insbesondere verwendet SWNN den Distanzvektor von jedem Stichprobenpunkt zu anderen Stichprobenpunkten als Eingabe und gibt an dieser Position eine Reihe räumlicher Gewichte aus, d. h. die Gewichtsmatrix W.Dadurch wird der Ausdruck räumlicher Heterogenität ermöglicht.

Um eine starke Generalisierungsfähigkeit bei kleineren Stichproben zu erreichen und das Modelltraining schneller konvergieren zu lassen, verwenden wir die GNNWR-Methode.Die von SWNN ausgegebenen Gewichte werden mit den zuvor von OLS ermittelten globalen Regressionskoeffizienten multipliziert.Es wurden Regressionskoeffizienten für räumliche Heterogenität gebildet.

Aus der Regressionsgleichung in der obigen Abbildung ist ersichtlich, dass die Regressionsgleichung aus unabhängigen Variablen, globalen Regressionskoeffizienten und räumlichen nichtstationären Anpassungsparametern an den Beobachtungspunkten besteht. Darauf aufbauend haben wir ein räumliches Regressionsmodell auf Basis neuronaler Netzwerke erstellt, um den räumlichen nichtstationären Prozess zu lösen.

Optimierung räumlicher Nähemaße mithilfe neuronaler Netzwerke

Wie bereits erwähnt, verwendet SWNN den Distanzvektor von jedem Stichprobenpunkt zu anderen Stichprobenpunkten als Eingabe. Bei diesem Verfahren verwenden wir im Allgemeinen die euklidische Distanz.Als Maß für die Entfernung dient beispielsweise die Länge der Linie, die zwei Punkte im Raum verbindet.Dies ist die intuitivste und am einfachsten zu verstehende Art, Entfernung auszudrücken.

In städtischen Umgebungen jedochDie euklidische Distanz wird durch natürliche und verkehrsbedingte Bedingungen beeinflusst und spiegelt die tatsächliche räumliche Nähe nur schwer wider.Wenn Sie beispielsweise zum anderen Ufer des Qiantang-Flusses möchten und die Autobahnbrücke nicht nehmen können, müssen Sie einen großen Umweg in Kauf nehmen. In diesem Fall ist die geradlinige Entfernung zwischen den beiden Punkten zwar sehr gering, im tatsächlichen Raum sind sie jedoch sehr weit voneinander entfernt, und die euklidische Distanz kann ihre räumliche Nähe nicht vollständig widerspiegeln.

In der realen Welt, die durch natürliche Landschaften und von Menschenhand geschaffene Objekte eingeschränkt ist, beruht der Austausch von Menschen und Materialien häufig auf Straßentransportnetzen.Auch die Entfernung des Straßennetzes (ND) und die Reisedauer (TD) sind geeignete Maße für die räumliche Nähe.

Jedoch,Aufgrund von Verkehrsvorschriften und StraßenkapazitätsbeschränkungenDie räumliche Nähe, die sich durch gleiche Straßennetzlänge und gleiche Fahrzeit ergibt, ist nicht gleich. Wenn Sie beispielsweise die gleichen 13 Minuten fahren, können Sie aufgrund der Geschwindigkeitsbegrenzung auf dem Campus nur eine kurze Strecke fahren, wenn Sie sich jedoch auf einer Überführung befinden, können Sie eine lange Strecke fahren.

Daher gibt es bestimmte Einschränkungen, wenn nur ein einziges Maß für die räumliche Nähe verwendet wird. daher,Wir versuchen, eine Distanzfusionsfunktion zu erstellen, die mehrere Distanzmetriken miteinander verbindet, um die räumliche Nähe optimal darzustellen.

Gemäß der obigen Gleichung koppeln wir mehrere „Entfernungen“ zwischen zwei Punkten, um einen besseren und genaueren Wert zu bilden, der die wahre räumliche Nähe zwischen den beiden Punkten darstellt.

Allerdings gibt es mit dieser Gleichung auch ein Problem. fsp ist eine Distanzdarstellung, die in mehreren verschiedenen Dimensionen vereinheitlicht werden muss. Beispielsweise sind die Einheiten der Reisezeit und der euklidischen Distanz unterschiedlich und auch die Größenordnungen können ganz unterschiedlich sein. Durch bloßes Verlassen auf gewöhnliche Funktionen lässt sich der Kopplungseffekt nicht vollständig erzielen. In diesem ZusammenhangWir haben ein räumliches neuronales Näherungsnetzwerk SPNN konstruiert,Ordnen Sie diese Entfernungen einer einheitlichen räumlichen Nähemetrik zu.

Anschließend kann durch Training dieses neuronalen Netzwerks die Berechnung einer bestimmten Funktion in einen datengesteuerten Anpassungsprozess umgewandelt werden. Dies ist unsere Idee, neuronale Netzwerke zur Optimierung der räumlichen Nähe zu verwenden.

Verbinden Sie zwei neuronale Netzwerke, um osp-GNNWR zu bilden

Da räumliche Nähe ein abstraktes Konzept ist und keinen wahren Wert hat, können wir beispielsweise bei gegebenen Punkten a und b nicht sagen, dass die räumliche Nähe zwischen a und b ein bestimmter Wert x ist. Dies macht es unmöglich, die Verlustfunktion von SPNN zu definieren und es somit zu trainieren.

Unsere Lösung ist,Die Ausgabe von SPNN wird direkt als Distanzeingabe von GNNWR verwendet, und die beiden neuronalen Netzwerke werden zu einem einheitlichen Ganzen verbunden, das wir als optimierte räumliche Nähemessung mit geographischer Netzwerkgewichtung und Regression (osp-GNNWR) bezeichnen.

Gemäß diesem Modell können wir das gesamte Netzwerk direkt durch den Fehler des Stichprobenschätzwerts trainieren und den Fehler des angepassten Werts und den hinzugefügten Wert der endgültigen abhängigen Variable y als Verlustfunktion verwenden, um das Netzwerk direkt zu trainieren. Das gesamte Netzwerk wird trainiert und gleichzeitig wird auch das SPNN trainiert, wodurch das SPNN-Problem gelöst und die Regressionsaufgabe abgeschlossen wird.

Am Beispiel der Immobilienpreise in Wuhan liefert osp-GNNWR eine neue Erklärung für die räumliche Heterogenität der Immobilienpreise.

Am Beispiel der Immobilienpreise in Wuhan:Wir haben 968 unabhängige Transaktionsdaten zu Gebrauchtimmobilien in Wuhan ausgewählt und sie im Verhältnis 85:15 in Trainingsdaten und Testdaten aufgeteilt.Aus diesen Daten haben wir mithilfe der bei der Modellierung von Immobilienpreisen häufig verwendeten Methode der charakteristischen Preise zehn unabhängige Variablen in drei Kategorien ausgewählt, darunter die grundlegenden Informationen zu diesen Häusern, die umliegenden unterstützenden Einrichtungen, die Verkehrsanbindung usw. Auf dieser Grundlage wählen wir die euklidische Distanz und die Reisezeit als Eingabedistanz von SPNN aus, um das osp-GNNWR-Modell zu erstellen.

Für die optimierte räumliche Nähemetrik, wie in der folgenden Abbildung dargestellt, stellt die Farbe jedes Punkts in der Abbildung die Restdifferenz des Anpassungsergebnisses dar. Orange bedeutet, dass der Anpassungseffekt von osp-GNNWR besser ist als der des ursprünglichen GNNWR-Modells; Die Linie stellt die Differenz zwischen der optimierten räumlichen Nähe und der euklidischen Distanz dar.

Wie in Abbildung a zu sehen ist, ist im Stadtrandgebiet der Unterschied zwischen OSP und euklidischer Distanz groß, und aufgrund des Einflusses der Straßennetzstruktur besteht ein gewisser Richtungsunterschied. Insbesondere können wir einen geringeren Unterschied in der Richtung des roten Pfeils feststellen, was hauptsächlich daran liegt, dass diese Richtung mit der zweiten Ringautobahn der Stadt Wuhan übereinstimmt.Dies liegt an den kleinen Unterschieden in der euklidischen Distanz und der Reisezeit, die zum Erstellen des OSP verwendet wurden.

Abbildung b zeigt, dass im zentralen Bereich der Stadt aufgrund der gut ausgebauten Verkehrsanbindung, egal in welche Richtung man fährt, die räumliche Nähe in verschiedene Richtungen relativ ausgeglichen ist.Daher zeigt die Differenz zwischen osp und euklidischer Distanz eine regelmäßigere konzentrische Kreisverteilung.

Durch diese Unterschiede zwischen OSP und euklidischer Distanz,Darüber hinaus konnten wir die praktische Bedeutung der Optimierung des räumlichen Nähemaßes nachweisen.

Basierend auf den Modellierungsergebnissen der Immobilienpreise können wir die räumliche Heterogenität der Regressionskoeffizienten weiter diskutieren, beispielsweise durch die Untersuchung der Auswirkungen der Universitätsentfernung auf die Immobilienpreise.

Wie in der Abbildung unten gezeigt, sind die UA-Parameter im Zentrum des Bezirks Hongshan in Wuhan deutlich höher als in anderen Gebieten.Dies lässt darauf schließen, dass die Universität einen positiven Einfluss auf die Immobilienpreise in der Gegend hat.Mit anderen Worten: Je näher eine Bildungseinrichtung liegt, desto höher sind die Immobilienpreise. Darüber hinaus haben diese Universitäten und Forschungseinrichtungen auch zu einem besseren Wohnumfeld und einem florierenden Mietmarkt geführt.

Auch kleine Modelle haben große Bedeutung

Wir haben in der obigen Untersuchung keine großen Modelle verwendet. Obwohl große neuronale Netzwerkmodelle, tiefe Netzwerkmodelle usw. derzeit sehr beliebt sind, haben kleine Modelle immer noch praktische Bedeutung. Wenn nicht genügend Rechenleistung oder umfangreiche Datensatzbeispiele zur Verfügung stehen, kann die Entwicklung eines kleinen und ansprechenden Modells bei der Lösung bestimmter Probleme eine große Hilfe sein.

Abschließend noch einige Referenzen. Bei Interesse können Sie auch gerne mal vorbeischauen.

Aufruf zum Handeln

HyperAI (hyper.ai) ist Chinas größte Suchmaschine im Bereich Datenwissenschaft. Es konzentriert sich seit langem auf die neuesten Forschungsergebnisse der KI für die Wissenschaft und hat mehr als 100 wissenschaftliche Arbeiten in Top-Zeitschriften interpretiert.

Forschungsgruppen und Teams, die Forschung und Erkundung im Bereich KI für die Wissenschaft betreiben, können sich gerne an uns wenden, um ihre neuesten Forschungsergebnisse mitzuteilen, ausführliche Interpretationsartikel beizusteuern und an der Live-Übertragungskolumne „Meet AI4S“ teilzunehmen. Weitere Möglichkeiten zur Förderung von AI4S warten darauf, von uns gemeinsam erkundet zu werden!

WeChat hinzufügen: HyperaiXingXing (WeChat-ID: Hyperai01)