네이처 저널 | 칭화-MIT 공동 연구팀, 대규모 언어 모델 기반 스마트 도시 계획 프레임워크 제안

점점 더 복잡해지는 도시 시스템과 다양한 사회적 요구에 직면하여 전통적인 도시 계획 방식은 병목 현상에 직면하고 있습니다. 오늘날 인공지능(AI)은 이 유서 깊고 중요한 분야에 파괴적 혁신을 가져오고 있습니다.
최근 미국 칭화대학교 전자공학과 건축학부 도시과학 및 계산연구센터, 매사추세츠 공과대학교(MIT) 센서블 시티 랩, 노스이스턴대학교 등 최고 기관의 학자들로 구성된 학제간 팀이 국제 첨단 학술지인 네이처 컴퓨테이셔널 사이언스에 관점 논문을 게재했습니다.대규모 언어 모델(LLM)을 기반으로 하는 스마트 도시 계획 프레임워크가 처음으로 체계적으로 제안되었습니다.이 프레임워크는 AI의 강력한 컴퓨팅, 추론 및 생성 기능과 인간 기획자의 전문적 경험 및 창의성을 긴밀하게 통합합니다.이 프로젝트의 목표는 AI를 인간을 위한 "지능형 계획 도우미"로 구축하고, 현대 도시 계획의 복잡한 과제를 공동으로 해결하며, 인간과 기계의 협업에 대한 새로운 패러다임을 열어 더욱 효율적이고 혁신적이며 대응성이 뛰어난 도시 설계 프로세스를 구축하는 것입니다.
도시 계획의 진화와 병목 현상
도시 계획의 이론과 실제는 끊임없이 진화하고 있습니다. 초기에는 물리적 공간과 미적 형태를 "예술적 디자인"으로 중시했지만, 제2차 세계 대전 이후 도시 계획을 복잡한 시스템으로 보고 과학적 모델을 분석에 활용하는 "과학적 계획"으로 접근했습니다. 그러나 오늘날 이러한 접근 방식은 새로운 과제에 직면하고 있습니다. 한편으로는 계획 과정이 계획자 중심적이며 대중의 참여가 제한적입니다. 다른 한편으로는 계획 제안에 대한 평가가 종종 질적이고 주관적이며 지연되어 과학적이고 정량적인 결정을 내리고 신속하게 반복하기 어렵습니다.
최근 몇 년 동안 생성적 적대 신경망(GAN)과 강화 학습(RL)과 같은 전통적인 AI 모델이 도시 계획에 적용되기 시작하면서, 거리 네트워크 생성 및 기능적 용도 구역 설정에 잠재력을 보여주고 있습니다. 그러나 이러한 모델은 일반적으로 특정 작업을 위해 설계되고 적용 범위가 제한적이어서 현대 도시 계획의 증가하는 학제적 복잡성을 감당하기에 적합하지 않습니다.강력한 지식 통합, 논리적 추론, 다중 모드 생성 기능을 갖춘 대규모 언어 모델(LLM)의 등장으로 이러한 병목 현상을 극복할 수 있는 역사적인 기회가 생겼습니다.
LLM이 주도하는 도시 계획을 위한 새로운 프로세스
기존 방법의 단점을 고려하여,연구팀은 개념 설계(Conceptualization), 솔루션 생성(Generation), 효과 평가(Evaluation)의 세 가지 핵심 단계로 구성된 폐쇄 루프 프레임워크를 혁신적으로 제안했습니다.이 프레임워크는 대규모 언어 모델, 대규모 시각적 모델(VLM), 대규모 모델 에이전트(LLM 에이전트)의 협업적 구동을 통해 전체 프로세스에 걸쳐 인간 기획자에게 지능적인 지원을 제공합니다.

개념 설계: LLM은 학제간 지식을 갖춘 "기획 컨설턴트"가 됩니다.
초기 계획 단계에서 기획자는 요구사항, 제약 조건, 지침과 같은 텍스트 정보를 입력합니다. 방대한 데이터로 사전 학습된 LLM은 지리, 사회, 경제 등 여러 분야의 지식을 심층적으로 통합하고 기획자와 여러 차례 "대화"를 나눌 수 있습니다.혁신적인 개념적 아이디어를 제안할 수 있을 뿐만 아니라 복잡한 맥락에 기반한 추론을 통해 자세한 계획 설명 텍스트와 예비적인 공간 개념 스케치를 생성할 수도 있습니다.개념 설계 단계의 효율성과 심도가 크게 향상되었습니다.

솔루션 생성: VLM은 "시각적 디자이너"가 되어 텍스트를 청사진으로 변환합니다.
이 프레임워크는 시각적 거시모델(VLM)을 활용해 추상적인 텍스트 개념을 구체적이고 시각적인 도시 디자인 솔루션으로 변환합니다.계획자는 텍스트 지침(프롬프트)을 통해 계획 개념과 제약 조건을 정확하게 설명할 수 있습니다. 도시 설계 데이터로 정밀하게 조정된 VLM은 토지 이용 배치, 건물 윤곽, 심지어 사실적인 3차원 도시 풍경과 같은 상세한 시각적 결과물을 생성하는 동시에 설계가 지형과 같은 현실 세계의 제약 조건을 준수하도록 보장합니다.

평가: LLM 에이전트는 미래의 삶을 미리 보기 위해 "가상 도시"를 건설합니다.
과학적으로 계획 방안을 평가하기 위해 이 프레임워크는 LLM 에이전트를 도입하여 도시 동적 시뮬레이션을 수행합니다.연구진은 에이전트들에게 연령, 직업 등 다양한 인구통계적 특성을 할당하고, 생성된 가상 도시 내에서 주민들의 일상적인 이동 및 시설 이용을 시뮬레이션하도록 했습니다. 시뮬레이션된 행동을 분석하여 이동 거리, 시설 이용률, 탄소 배출량, 사회적 형평성 등 다양한 차원에 걸친 정량적 평가 지표를 얻을 수 있었습니다. 이를 통해 계획 솔루션의 반복적 최적화를 위한 과학적이고 미래 지향적인 피드백을 얻을 수 있었습니다.

초기 성공: AI, 인간 전문가를 능가할 잠재력 보여줘
칭화대학교 전자공학과 도시과학 및 컴퓨팅 연구센터는 프레임워크 핵심 역량의 실현 가능성을 검증하기 위해 CityGPT, CityBench, UrbanLLaVA와 같은 언어-시각적 교차 모달 도시 모델과 UrbanWord, EmbodiedCity, AgentSociety와 같은 도시 체화 시뮬레이션 플랫폼 및 사회 시뮬레이션 시스템을 지속적으로 출시하여 대형 모델 시대의 도시 계획 및 사회 거버넌스를 위한 기술적 기반을 마련했습니다. LLM 시대의 도시 계획에 대해 연구팀은 일련의 개념 검증 실험을 수행했습니다. 한 실험에서 연구진은 LLM에게 도시 계획 전문가 자격 시험 문제에 답하도록 요청했습니다. 그 결과는 다음과 같았습니다.가장 큰 규모의 LLM은 복잡한 계획 개념 질문에 답하는 데 있어 상위 101명의 TP3T 인간 계획자보다 우수한 성과를 보였으며, 개념화 단계에서 뛰어난 잠재력을 보여주었습니다.
평가 단계에서 연구팀은 LLM 에이전트를 사용하여 뉴욕과 시카고의 두 지역에서 주민들의 시설 방문을 시뮬레이션했습니다. 시뮬레이션 결과, 에이전트의 핫스팟이 실제 주민 이동성 데이터와 밀접하게 일치함을 확인했습니다. 이는 LLM 에이전트가 계획 제안의 실제 영향을 예측하는 데 있어 정확성과 효율성을 입증합니다.

과제와 전망: 인간과 기계가 협력하는 미래 도시 건설
연구팀은 이 프레임워크가 인간 기획자를 대체하는 것이 아니라, 인간과 기계의 협업을 위한 새로운 워크플로우를 구축하기 위한 것이라고 강조했습니다. 이 모델을 통해 기획자는 지루한 데이터 처리 및 도면 작업에서 벗어나 혁신, 윤리적 고려 사항, 그리고 다양한 이해관계자와의 소통에 더욱 집중할 수 있습니다.AI는 개념 통합, 솔루션 생성 및 시뮬레이션 평가를 효율적으로 완료하는 역할을 합니다.
본 논문은 고품질 도시 설계 데이터의 부족, 막대한 계산 자원 요구량, 그리고 모델의 잠재적인 지리적 및 사회적 편향 등 이러한 기술적 접근 방식이 직면한 과제들을 제시합니다. 향후 연구를 위해서는 AI 기술이 모든 도시 환경에 공정하고 포용적인 방식으로 적용될 수 있도록 개방형 데이터 플랫폼 구축, 더욱 효율적인 전문 모델 개발, 그리고 공정성 알고리즘 설계가 필요합니다.
가까운 미래에 도시 계획자들은 강력한 AI 조수의 도움을 받아 효율적이고, 살기 좋고, 지속 가능한 도시를 더 빠르고 더 잘 설계할 수 있을 것으로 기대되며, 이를 통해 인간의 창의력을 최대한 발휘하여 공동의 도시 공간을 형성할 수 있을 것입니다.
논문 링크:
https://www.nature.com/articles/s43588-025-00846-1
저자 소개
본 논문의 제1저자는 칭화대학교 전자공학과 박사과정생 정 유(Zheng Yu)입니다. 교신저자는 칭화대학교 전자공학과 리 용(Li Yong) 교수, 건축학부 린 유밍(Lin Yuming) 조교수, 노스이스턴대학교 환경공학과 치 R. 왕(Qi R. Wang) 부교수입니다. 공동 연구자로는 칭화대학교 전자공학과 쉬 펑리(Xu Fengli) 조교수, MIT 센서블 시티 랩(Senseable City Lab)의 파올로 산티(Paolo Santi) 연구원과 카를로 라티(Carlo Ratti) 교수가 있습니다.