Command Palette
Search for a command to run...
이미지 위치 정보 분야의 획기적인 발전! 메인 대학교, 구글, OpenAI 등이 LocDiff 프레임워크를 제안하여 그리드나 참조 라이브러리 없이도 정확한 전역 위치 정보를 구현했습니다.

문맥 정보로부터 지리적 위치를 추론하는 위치 디코딩 기술은 궤적 합성, 건물 윤곽선 분할, 그리고 이미지 위치 정보 분석에 널리 활용됩니다. 이 중 시각적 콘텐츠와 지리적 좌표를 연관시키는 이미지 위치 정보 분석은 핵심 연구 분야로 자리 잡았습니다. 이미지 특징 분석을 통해 위도와 경도 좌표를 예측하며, 야생 동물 모니터링 및 도시 거리 뷰와 같은 데이터 유형에 적합합니다.
그러나 성숙한 이미지 분류 작업과는 달리, 이미지 위치정보는 복잡한 비선형 매핑 문제에 직면하여 정확한 모델링을 어렵게 만듭니다. 초기 연구에서는 회귀 모델을 사용하여 이미지 특징을 위도와 경도로 직접 매핑했지만, 이러한 모델은 안정성이 낮고 예측 오류가 전 세계적으로 수백 킬로미터에 달하는 경우가 많았습니다. 이 문제를 해결하기 위해 연구자들은 위치정보 작업을 분류 또는 검색 문제로 변환하는 "이산화 변환(discretization transduction)" 방법을 제안했습니다. 그러나 이러한 방법들은 공간 해상도와 지리적 범위 측면에서 여전히 한계가 있습니다.
최근 몇 년 동안 확산 모델로 대표되는 생성 기법은 연속적인 데이터 분포를 모델링하는 뛰어난 능력 덕분에 위치 정보 연구에 새로운 지리 정보학의 지리를 열어왔습니다. 이를 바탕으로 메인 대학교, 텍사스 대학교, 조지아 대학교, 메릴랜드 대학교, 구글, OpenAI, 그리고 하버드 대학교의 공동 연구팀은 혁신적인 접근법을 제안했습니다.연구진은 기존 생성 방법이 실패하는 근본적인 이유가 지리적 좌표의 공간적 속성이 기존 데이터의 공간적 속성과 다르기 때문이라는 것을 발견했습니다. 좌표는 유클리드 공간이 아닌 내장된 리만 다양체에 위치하고, 노이즈를 직접 적용하면 투영 왜곡이 발생합니다. 동시에 원래 좌표에는 다중 스케일 공간 정보가 부족하여 복잡한 분포의 모델링을 지원하기 어렵습니다.이 두 가지 주요 문제를 해결하기 위해 연구팀은 "구면 조화 디랙 델타(SHDD)"와 통합 프레임워크인 LocDiff를 제안했습니다. 구면 기하에 적합한 인코딩 방식과 확산 아키텍처를 구축함으로써, 사전 설정된 그리드나 외부 이미지 라이브러리에 의존하지 않고도 정확한 위치 측정을 달성하여 이 분야에 획기적인 기술적 길을 제시했습니다.
"LocDiff: 힐버트 공간에서 확산을 통한 지구 위치 식별"이라는 제목의 관련 연구 결과가 NeurIPS 2025에 포함되었습니다.

서류 주소:
https://openreview.net/forum?id=ghybX0Qlls
공식 WeChat 계정을 팔로우하고 백그라운드에서 "LocDiff"를 답글하면 전체 PDF를 받을 수 있습니다.
더 많은 AI 프런티어 논문:
https://hyper.ai/papers
데이터 세트: GeoCLIP을 기반으로 하는 이 데이터 세트는 세 가지 주요 글로벌 규모의 일반적인 이미지 지리적 위치 데이터 세트를 기반으로 확장되었습니다.
연구 결과의 비교성과 신뢰성을 보장하기 위해 연구진은 이미지 지리위치 분야에서 널리 사용되는 GeoCLIP 모델의 벤치마크 설정을 따랐습니다.훈련 단계에서는 472만 개의 이미지와 정확한 지리적 주석이 포함된 MP16 데이터 세트(MediaEval Placing Tasks 2016)를 사용하여 모델 훈련에 필요한 충분한 데이터 지원을 제공했습니다.테스트 단계에서는 세 가지 전형적인 글로벌 규모 이미지 지리 위치 데이터 세트인 Im2GPS3k, YFCC26k, GWS15k가 선택되었습니다.
테스트 세트 Im2GPS3k와 YFCC26k는 데이터 분포 측면에서 훈련 세트 MP16과 매우 유사하며, 일부 이미지는 겹칠 수 있습니다. 이러한 특징은 검색 기반 방법(예: GeoCLIP)이 매칭 과정에서 특정 이점을 제공하여 검색 정확도를 향상시키는 데 도움이 됩니다.모델 추론 단계에서 연구자들은 GeoCLIP 및 SimCLR과 같은 주류 모델에서 사용하는 전략을 채택하여 각 테스트 이미지에 대해 16개의 향상된 버전을 생성하고 여러 샘플링의 지리적 중심을 최종 예측 위치로 사용했습니다.이 전략은 모델 성능을 크게 향상시킵니다. 예를 들어, 비교 실험에서 이미지 향상 및 결과 평균화 단계를 제거하면 Im2GPS3k 데이터셋에서 GeoCLIP의 1km 단위 위치 정확도가 14%에서 10% 미만으로 떨어집니다.
본 연구는 다양한 공간 규모에서 모델의 위치 추정 성능을 종합적으로 평가하기 위해 거리 수준(1km), 도시 수준(25km), 지역 수준(200km), 국가 수준(750km), 대륙 수준(2,500km)의 다섯 가지 평가 수준을 설정했습니다. 모델의 성능은 실제 위치 인근에 포함되는 샘플의 비율을 통계적으로 예측하여 정량화했습니다.
LocDiff: 구면 위치 생성을 위한 잠재 확산 모델
LocDiff 모델의 핵심 목표는 구면 위치 생성에 적합한 잠재 확산 프레임워크를 구축하는 것입니다. 핵심 아이디어는 희소성과 비선형성 문제를 극복할 수 있는 위치 인코딩 공간을 구축하는 것입니다. 구체적으로, 이는 구면 조화 디랙 함수(SHDD) 인코딩-디코딩 프레임워크, 조건부 사이렌-유넷(CS-UNet) 아키텍처, 그리고 효율적인 계산 전략의 긴밀한 통합을 통해 달성됩니다.
기술적 방향을 명확히 하기 위해, 본 연구는 먼저 이상적인 위치 인코딩 공간이 가져야 하는 핵심 속성을 수학적으로 정의합니다. 좌표 공간 C를 각 좌표(θ, φ)를 사용하여 매개변수화된 3차원 유클리드 공간에 포함된 단위 구라고 가정합니다. 이상적인 위치 인코더 PE는 C에서 고차원 공간 ℝ^d로의 단사 함수여야 하며(인코딩 고유성 보장), 디코더 PD는 ℝ^d에서 C로 역사영하는 전사 함수여야 합니다(디코딩 무결성 보장). 더 중요한 것은, 인코딩 공간이 연속 차분 행렬 ℰ을 통해 조밀하게 채워져야 하며, 디코더는 "인코딩 공간의 작은 섭동은 구면 좌표의 작은 변화만 유발한다"는 안정성 요건을 충족해야 한다는 것입니다. 이 두 가지 속성은 기존의 기술적 병목 현상을 극복하는 데 핵심적입니다.
그러나 기존 방법은 위의 목표를 달성하는 데 있어 이중의 딜레마에 직면합니다. 위치 인코딩 공간 자체가 희소하면 확산 모델은 그 안에서 안정적인 확산 과정을 수행하는 데 어려움을 겪게 되고, 이는 직접적으로 학습 수렴의 어려움과 낮은 디코딩 정확도로 이어집니다. 대신 밀집된 위치 임베딩 공간을 사용하면 확산 과정의 원활한 진행을 지원할 수 있지만 위치 인코딩과 좌표 공간 간의 높은 비선형 매핑으로 인해 "임베딩 결과에서 올바른 지리적 좌표를 추론하는" 작업이 교착 상태에 빠지게 됩니다. 임베딩 공간에서 거리를 최소화하는 것이 지리적 공간에서 거리를 최소화하는 것과 일치하지 않는 경우가 많습니다.
이러한 과제를 극복하기 위해 연구자들은 SHDD 인코딩 방식을 제안했습니다.이 혁신적인 접근법은 먼저 구면 점 (θ₀, φ₀)을 구면 조화 디랙 함수 δ_(θ₀, φ₀)로 변환한 다음, 이 함수를 구면 조화 함수 계수 벡터로 인코딩하여 최종적으로 SHDD 표현을 형성하는 과정을 포함합니다. 실제 응용에서는 구면 조화 함수의 최대 차수 L을 설정함으로써 이론적으로 무한 차원인 계수 벡터를 간결한 (L+1)² 차원 표현으로 절단할 수 있습니다. 또한, L 값이 클수록 표현을 통해 포착되는 공간 정보가 더욱 정교해져 다중 스케일 위치 결정 요구 사항에 대한 유연한 지원을 제공합니다.
SHDD 인코딩 공간은 본질적으로 조밀합니다. 각 점 e는 구면 함수 Fₑ에 고유하게 대응합니다. 이 함수와 실제 위치에 대응하는 구면 조화 디랙 함수 δ_(θ₀, φ₀)의 차이는 역 KL 발산으로 정량화됩니다. 이 차이 측정값 ℰ은 본 연구에 필요한 연속형 척도입니다.더 중요한 점은 SHDD KL 다이버전스와 Wasserstein-2 거리가 명확한 제약 관계를 가지고 있어 코딩 공간의 차이와 구면 확률 분포의 차이 사이의 일관성을 수학적으로 보장하고 디코딩 안정성의 기반을 마련한다는 것입니다.한편, SHDD 인코딩은 기존 방식의 비선형성 문제를 효과적으로 해결합니다. 관련 히트맵 비교 결과, SHDD로 측정된 구면 거리는 기존 임베딩 방식과 비교하여 더 매끄러움을 보여줍니다. 이러한 매끄러움은 디코딩 과정에서 오류 전파 위험을 크게 줄이고 정확한 위치 추정을 보장합니다.

연구자들은 SHDD 표현의 특성을 바탕으로 효율적인 디코딩을 달성하기 위해 모달리티 검색 디코더를 설계했습니다.이 디코더는 역 KL 발산의 모달 탐색 특성을 활용하여 구면 함수의 확률 질량이 가장 높은 영역을 찾아 좌표 역산을 수행합니다. 초매개변수 ρ는 디코딩 해상도와 안정성의 균형을 맞추는 데 사용됩니다. ρ 값이 클수록 디코딩 결과는 국소 피크에 덜 민감해지지만 정확도는 낮아지고, ρ 값이 작을수록 정확도는 향상되지만 국소 잡음에 더 취약해집니다. 이러한 매개변수 없는 설계는 두 가지 장점을 가지고 있습니다. 디코딩 단계에서 추가 손실이 발생하지 않고, 사전 정의된 구면 파티션이나 외부 참조 이미지 라이브러리에 대한 의존성을 완전히 제거하여 기존 방식의 적용 한계를 극복합니다.
아래 그림과 같이 LocDiff의 조건부 생성 백본 네트워크인 CS-UNet 아키텍처는 SirenNet을 기본 모듈로 사용합니다. 이러한 선택은 구면 고조파 함수의 계수가 본질적으로 사인 함수와 코사인 함수의 중첩이며, SirenNet의 사인파 활성화 함수가 구면 고조파 특징의 전파 요구 사항에 적응하여 그래디언트 흐름을 효과적으로 유지할 수 있다는 사실에서 비롯됩니다. CS-UNet의 핵심 유닛인 C-Siren은 정교한 특징 융합 메커니즘을 통해 효율적인 조건부 잡음 제거를 구현합니다. 잠재 벡터 x, 이미지 조건부 임베딩 e_I, 그리고 확산 단계 t를 입력하면, 먼저 x와 e_I를 은닉 벡터로 투영한 다음, 이산 확산 시간 단계 t를 스케일 및 오프셋 벡터로 변환하여 무조건적인 잡음 제거를 완료합니다. 마지막으로, 이미지 조건과 잡음 제거 특징이 융합되고, 조정된 특징이 출력되어 다음 단계 모듈로 전달되어 완전한 조건부 유도 체인을 형성합니다.

LocDiff의 학습 과정은 표준 DDPM 프레임워크를 따르며, "이미지-구면 위치"를 학습 샘플 쌍으로 사용합니다. 먼저, 이미지는 고정된 CLIP 인코더를 통해 고정 차원 임베딩 표현 e_I로 변환되고, 해당 구면 위치 (θ, φ)는 SHDD 표현으로 인코딩되어 나중에 사용하기 위해 저장됩니다. 순전파 단계에서는 구면 조화 디랙 함수에 잡음이 점진적으로 추가되어 순수 가우시안 잡음 벡터로 변환됩니다. 역전파 단계에서는 이미지 임베딩 e_I의 안내를 받는 CS-UNet이 잡음 벡터에서 원래 SHDD 표현을 점진적으로 복원합니다. 학습에 사용되는 손실 함수는 SHDD KL 발산으로, 기존의 구면 MSE 손실에 비해 수치적으로 더 안정적일 뿐만 아니라 다중 스케일 공간 정보를 효과적으로 보존하여 모델이 전역 및 지역 특징을 학습하는 데 도움을 줍니다.
추론 단계에서 모델은 무작위 가우시안 잡음으로 시작하여 입력 이미지의 내장된 특징에 따라 CS-UNet을 통해 SHDD 계수 벡터를 점진적으로 생성합니다. 이 벡터는 모달리티 탐색 디코더를 통해 구면 좌표 (θ, φ)로 변환됩니다. 실제 엔지니어링 구현에서 SHDD KL 발산 계산과 모달리티 탐색의 적분 연산은 이산 구면 앵커 포인트 집합을 합산하여 근사합니다. 학습 과정에서 앵커 포인트는 과적합을 방지하기 위해 전역적으로 무작위로 샘플링됩니다.
LocDiff는 세 가지 핵심 차원에 초점을 맞춰 대부분의 테스트 시나리오에서 매우 뛰어난 성능을 발휘합니다.
본 연구에서는 LocDiff 모델의 성능을 체계적으로 평가하기 위해 위치 추정 정확도, 일반화 능력, 계산 효율성의 세 가지 차원에 걸쳐 실험을 수행했습니다. 모든 실험은 공정한 비교를 위해 도메인 표준 설정을 준수했습니다.
실험 결과, 아래 표에서 볼 수 있듯이 LocDiff는 대부분의 테스트 시나리오에서 탁월한 성능을 보였습니다. 연구진은 미세 단위 성능을 더욱 향상시키기 위해 GeoCLIP의 검색 범위를 LocDiff 생성 위치 반경 200km로 제한하여 두 방법의 장점을 효과적으로 결합한 하이브리드 모델인 LocDiff-H를 설계했습니다. LocDiff-H는 Im2GPS3k와 YFCC26k에서는 탁월한 성능을 보이지만, GWS15k에서는 기존 LocDiff보다 성능이 떨어지며, 특히 미세 단위 스케일에서 더욱 그렇습니다. 이는 주로 GWS15k와 훈련 데이터셋 간의 상당한 분포 차이 때문이며, 이는 GeoCLIP의 귀납적 편향에 부정적인 영향을 미칩니다.

아래 표에서 볼 수 있듯이, 유사한 생성 모델과 비교했을 때 LocDiff는 OSM-5M과 YFCC-4k 데이터 세트 모두에서 DiffR³, FMR³ 및 기타 비교 가능한 모델보다 우수한 성능을 보였으며, 이는 다중 스케일 잠재 확산 방법의 장점을 입증합니다.

일반화 분석은 생성적 방법의 고유한 가치를 보여줍니다. 검색 기반 GeoCLIP은 지도 저장소의 공간적 범위에 크게 의존합니다. 테스트 세트의 분포가 훈련 세트와 일치하지 않으면 성능이 크게 저하됩니다. 수백만 개의 균일한 격자점을 후보 위치로 사용하더라도 200km 이상의 규모에서 원래 지도 저장소를 사용하는 것보다 성능이 훨씬 떨어집니다. 이는 이 방법이 보이지 않는 위치에 대한 적응성이 제한적임을 보여줍니다.
반면, LocDiff는 강력한 일반화 능력을 보여줍니다. 아래 표에서 볼 수 있듯이, 실험 결과는 앵커 포인트가 MP16 라이브러리 위치를 사용하든 균일한 격자점을 사용하든, 그리고 앵커 포인트 수가 21,000개에서 100만 개로 증가하든 LocDiff의 성능이 안정적으로 유지됨을 보여주며, LocDiff의 견고성을 더욱 확증합니다.

계산 효율성 측면에서 LocDiff는 매우 우수한 성능을 보입니다. 결정론적 폐쇄형 연산인 SHDD 인코딩/디코딩은 거의 일정한 시간 복잡도와 선형 공간 복잡도를 갖습니다. 학습 과정에서 SHDD 인코딩은 임베딩 조회 테이블로 미리 계산될 수 있으며, 디코딩은 효율적인 행렬 곱셈과 최대 인수 연산을 통해 구현됩니다. 특히, 다중 스케일 SHDD 표현은 확산 과정의 수렴 속도를 크게 향상시킵니다. LocDiff는 YFCC 데이터셋에서 약 200만 단계만으로 수렴하는 반면, 동급 최고 모델은 1천만 단계가 필요합니다.

이미지 지리위치 기술의 학문적 혁신과 산업적 출현
이미지 지리위치 기술은 시각 정보와 물리적 세계를 연결하는 중요한 다리 역할을 하며, 최근 몇 년 동안 학문적 연구와 실제 응용 분야에서 상당한 진전을 이루었습니다.
학계에서는 MIT 컴퓨터과학 및 인공지능 연구소(CSAIL)의 한 연구팀이 구면 위치 인코딩 분야에서 획기적인 진전을 이루었습니다. 기존 방식의 비선형 매핑 문제를 해결하기 위해, 연구팀은 구면 조화 함수와 매니폴드 학습을 결합한 매니폴드 확산 기반 개선 방안을 제안했습니다. 이 혁신은 극지방이나 해양과 같이 데이터가 희소한 지역에서 모델의 위치 추정 성능을 크게 향상시켜 100km 규모에서 정확도를 231 TP3T만큼 높였습니다. 또한, 이 연구는 적응형 규모 조정 메커니즘을 도입하여 여러 지역 시나리오에서 모델의 일반화 능력을 효과적으로 향상시켰습니다.
논문 제목:LocDiffusion: 구면 조화 디랙 델타 공간에서 확산을 통해 지구상의 위치 식별
논문 링크:https://arxiv.org/abs/2503.18142
한편, UAE 디지털 대학교는 대규모 비전 모델의 위치 정보 추론 기능을 향상시키기 위해 설계된 새로운 다단계 추론 패러다임인 GeoCoT 프레임워크를 제안했습니다. GeoCoT는 인간의 위치 정보 인지 과정을 시뮬레이션하여 상황 정보와 공간 정보를 점진적으로 통합함으로써 위치 추적 성능을 크게 향상시킵니다. GeoEval 지표 기반 실험 결과, 이 프레임워크는 우수한 해석성을 유지하면서도 위치 정보 정확도를 최대 25%까지 향상시킵니다.
논문 제목:실제 인간 게임 플레이 데이터를 활용한 지리적 위치: 대규모 데이터 세트 및 인간과 유사한 추론 프레임워크
논문 링크:https://arxiv.org/pdf/2502.13759
이러한 학문적 개념은 실질적인 생산성 향상으로 빠르게 전환되어 산업계의 혁신적인 관행을 주도하고 있습니다. 2023년 NASA 스타트업 챌린지에서 우승한 PRISM Intelligence가 개발한 지공간 인텔리전스 플랫폼이 대표적인 사례입니다. 이 플랫폼은 방사선장 기술을 사용하여 2차원 원격 탐사 이미지를 고충실도 3차원 디지털 환경으로 변환하고, AI 기반 시맨틱 분할 및 동적 최적화 알고리즘을 결합하여 지공간 데이터와의 자연어 상호작용을 구현합니다.
Google 어스 팀은 방대한 양의 글로벌 스트리트 뷰 데이터를 기반으로 학습된 생성 모델을 사용하여 이미지를 기반으로 정확한 위치 예측을 달성하고, 날씨, 공사 및 기타 요인으로 인해 누락된 이미지 정보를 자동으로 보완했습니다. 이 기술 덕분에 Google 어스의 스트리트 뷰 업데이트 효율성이 3배 향상되었고, 더 먼 지역까지 서비스 범위가 확대되었습니다.
이러한 산업 관행은 학문적 연구의 적용 가치를 검증할 뿐만 아니라 실제 시나리오에서 얻은 피드백을 통해 이론적 혁신을 위한 새로운 방향을 제시하고, 이미지 지리위치 기술을 지속적으로 더욱 정확하고, 효율적이며, 접근성 있게 만들어줍니다.
참조 링크:
1.https://science.nasa.gov/science-research/science-enabling-technology/technology-highlights/entrepreneurs-challenge-winner-prism-is-using-ai-to-enable-insights-from-geospatial-data/
2.https://ai.google.dev/competition/projects/prism