3 个月前

自然语言处理

Zhen Yang Wenyi Hong Mingde Xu Xinyue Fan Weihan Wang Jiele Cheng Xiaotao Gu Jie Tang

摘要

用户界面（UI）编程是现代软件开发中的核心但高度复杂的环节。近年来，视觉语言模型（VLMs）的进展凸显了自动UI代码生成的潜力，但现有方法仍面临两大关键局限：多模态编码能力尚未充分发展，且单轮交互范式难以有效利用迭代式视觉反馈。为此，我们提出一种交互式UI到代码的范式，更贴合真实工作流程，并显著提升可实现性能的上限。在此范式下，我们提出了UI2Code $^{\text{N}}$ ——一种通过分阶段预训练、微调与强化学习训练而成的视觉语言模型，实现了多模态编码能力的基础性提升。该模型统一融合了三大核心能力：UI到代码的生成、UI编辑以及UI优化。此外，我们进一步探索了生成过程中的测试时扩展（test-time scaling）技术，支持系统化地利用多轮反馈进行交互式生成。在UI到代码及UI优化基准测试中，UI2Code $^{\text{N}}$ 在开源模型中达到了新的最先进水平，其性能可与Claude-4-Sonnet、GPT-5等领先闭源模型相媲美。相关代码与模型已开源，地址为：https://github.com/zai-org/UI2Code_N。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

3 个月前

自然语言处理

Zhen Yang Wenyi Hong Mingde Xu Xinyue Fan Weihan Wang Jiele Cheng Xiaotao Gu Jie Tang

摘要

用户界面（UI）编程是现代软件开发中的核心但高度复杂的环节。近年来，视觉语言模型（VLMs）的进展凸显了自动UI代码生成的潜力，但现有方法仍面临两大关键局限：多模态编码能力尚未充分发展，且单轮交互范式难以有效利用迭代式视觉反馈。为此，我们提出一种交互式UI到代码的范式，更贴合真实工作流程，并显著提升可实现性能的上限。在此范式下，我们提出了UI2Code $^{\text{N}}$ ——一种通过分阶段预训练、微调与强化学习训练而成的视觉语言模型，实现了多模态编码能力的基础性提升。该模型统一融合了三大核心能力：UI到代码的生成、UI编辑以及UI优化。此外，我们进一步探索了生成过程中的测试时扩展（test-time scaling）技术，支持系统化地利用多轮反馈进行交互式生成。在UI到代码及UI优化基准测试中，UI2Code $^{\text{N}}$ 在开源模型中达到了新的最先进水平，其性能可与Claude-4-Sonnet、GPT-5等领先闭源模型相媲美。相关代码与模型已开源，地址为：https://github.com/zai-org/UI2Code_N。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供