このデータセットは、人口動態ベースの埋め込みを評価するために 2024 年に Google Research によってリリースされた実際のデータであり、地図から取得された豊富な人間データ、検索傾向の概要、および天候や大気の質などの環境要因が含まれています。関連する論文結果は「人口動態基盤モデルを使用した一般的な地理空間推論”。
データセットには 3 つのファイルが含まれています。
- conus27 (内挿、超解像度、および外挿): conus27 ファイルは、内挿 (ギャップを埋める)、超解像度 (より細かい空間スケールでの予測)、および外挿 (大きな領域が欠落している場合) をサポートする多用途のデータセットです。領域全体にデータを投影する)。このファイルには、詳細な地理位置情報 (サイト、郡、州、緯度、経度) と主要な人口健康指標に加え、樹木被覆、標高、夜間照明などの地理的特徴が含まれています。
- 予測: 時間を予測するモデルの機能は、2 つのデータセットを使用して実証されます。
- county_unemployment.csv: 1990 年から 2024 年までの郡レベルの失業データが含まれており、ユーザーは長期にわたる雇用傾向を追跡できます。
- zcta_poverty.csv: このファイルは、2011 年から 2022 年までの郵便番号集計地域 (ZCTA) レベルでの年間貧困推計を提供し、より細かい空間スケールでの経済的および社会的変化についての洞察を提供します。
Google Research の研究チームは、グラフ ニューラル ネットワークを使用してこれらのデータと場所の間の複雑な関係をモデル化し、PDFM モデルと最先端の予測ベース モデル TimesFM を組み合わせて失業率と貧困率を予測し、優れたパフォーマンスを達成しました。