UI2Code$^ ext{N}$: Ein visuelles Sprachmodell für skalierbare interaktive UI-zu-Code-Generierung bei Testzeit
Zhen Yang Wenyi Hong Mingde Xu Xinyue Fan Weihan Wang Jiele Cheng Xiaotao Gu Jie Tang

Abstract
Die Programmierung von Benutzeroberflächen (UI) ist ein zentraler, jedoch äußerst komplexer Bestandteil moderner Softwareentwicklung. Neuere Fortschritte in visuellen Sprachmodellen (VLMs) unterstreichen das Potenzial automatischer UI-Codierung, doch bestehen aktuelle Ansätze weiterhin an zwei zentralen Einschränkungen: Die Fähigkeiten zur multimodalen Codierung sind noch unterentwickelt, und die Einzelschritt-Paradigmen nutzen iteratives visuelles Feedback kaum aus. Wir adressieren diese Herausforderungen durch ein interaktives UI-zu-Code-Paradigma, das realitätsnahere Arbeitsabläufe abbildet und die obere Grenze der erreichbaren Leistungsignifikant erhöht. Unter diesem Paradigma stellen wir UI2CodeN vor – ein visuelles Sprachmodell, das durch eine mehrstufige Vortrainings-, Feinjustierungs- und Verstärkungslernstrategie trainiert wurde, um grundlegende Fortschritte in der multimodalen Codierung zu erzielen. Das Modell vereint drei zentrale Fähigkeiten: die Generierung von Code aus UI, die Bearbeitung von Benutzeroberflächen sowie deren Optimierung (Polishing). Darüber hinaus erforschen wir Skalierungstechniken zur Testzeit, um systematisch mehrschrittiges Feedback bei der interaktiven Generierung zu nutzen. Experimente auf Benchmarks für UI-zu-Code-Übersetzung und UI-Polishing zeigen, dass UI2CodeN eine neue State-of-the-Art-Leistung unter Open-Source-Modellen erreicht und eine Leistung erzielt, die vergleichbar ist mit führenden Closed-Source-Modellen wie Claude-4-Sonnet und GPT-5. Unsere Quellcode- und Modellressourcen sind unter https://github.com/zai-org/UI2Code_N verfügbar.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.