Command Palette
Search for a command to run...
Zhen Yang Wenyi Hong Mingde Xu Xinyue Fan Weihan Wang Jiele Cheng Xiaotao Gu Jie Tang

摘要
用户界面(UI)编程是现代软件开发中的核心但高度复杂的环节。近年来,视觉语言模型(VLMs)的进展凸显了自动UI代码生成的潜力,但现有方法仍面临两大关键局限:多模态编码能力尚未充分发展,且单轮交互范式难以有效利用迭代式视觉反馈。为此,我们提出一种交互式UI到代码的范式,更贴合真实工作流程,并显著提升可实现性能的上限。在此范式下,我们提出了UI2CodeN——一种通过分阶段预训练、微调与强化学习训练而成的视觉语言模型,实现了多模态编码能力的基础性提升。该模型统一融合了三大核心能力:UI到代码的生成、UI编辑以及UI优化。此外,我们进一步探索了生成过程中的测试时扩展(test-time scaling)技术,支持系统化地利用多轮反馈进行交互式生成。在UI到代码及UI优化基准测试中,UI2CodeN在开源模型中达到了新的最先进水平,其性能可与Claude-4-Sonnet、GPT-5等领先闭源模型相媲美。相关代码与模型已开源,地址为:https://github.com/zai-org/UI2Code_N。