Command Palette
Search for a command to run...
Zhen Yang Wenyi Hong Mingde Xu Xinyue Fan Weihan Wang Jiele Cheng Xiaotao Gu Jie Tang

초록
사용자 인터페이스(UI) 프로그래밍은 현대 소프트웨어 개발의 핵심이면서도 매우 복잡한 영역이다. 최근 시각 언어 모델(VLM)의 발전은 자동 UI 코드 생성의 가능성을 부각시키고 있으나, 기존 접근 방식은 두 가지 주요한 한계를 안고 있다. 첫째, 다중 모달 코드 생성 능력이 여전히 미흡하며, 둘째, 단일 대화(turn) 기반의 접근 방식은 반복적인 시각 피드백을 효과적으로 활용하지 못한다. 본 연구는 현실 세계의 개발 워크플로우를 더 잘 반영하고, 달성 가능한 성능의 상한선을 높이는 상호작용형 UI-to-code 파라다임을 제안한다. 이 파라다임 아래에서, 단계적 사전 학습, 미세 조정 및 강화 학습을 통해 훈련된 시각 언어 모델인 UI2CodeN을 제시한다. 이 모델은 다중 모달 코드 생성 능력에서 기초적인 성능 향상을 달성하며, 세 가지 핵심 기능을 통합한다: UI-to-code 생성, UI 편집, UI 최적화. 또한, 상호작용적 생성을 위한 테스트 시각 규모 확장( test-time scaling)을 탐구하여 다단계 피드백을 체계적으로 활용할 수 있도록 했다. UI-to-code 및 UI 최적화 벤치마크에서의 실험 결과, UI2CodeN은 오픈소스 모델 중 최고 수준의 성능을 확보하였으며, Claude-4-Sonnet 및 GPT-5와 같은 선도적인 폐쇄형 모델과도 비견되는 성능을 달성했다. 본 연구의 코드와 모델은 https://github.com/zai-org/UI2Code_N 에서 공개된다.