Command Palette
Search for a command to run...
Zhen Yang Wenyi Hong Mingde Xu Xinyue Fan Weihan Wang Jiele Cheng Xiaotao Gu Jie Tang

要約
ユーザーインターフェース(UI)プログラミングは、現代のソフトウェア開発において核となるが極めて複雑な分野である。近年、視覚言語モデル(VLM)の進展により、UIコードの自動生成の可能性が浮き彫りになっているが、現行のアプローチには二つの主要な課題が存在する。第一に、マルチモーダルなコード生成能力がまだ十分に発展していないこと。第二に、単一ターンの生成パラダイムでは、反復的な視覚フィードバックを有効に活用できていない点である。本研究では、現実の開発ワークフローをより正確に反映し、達成可能な性能の上限を引き上げるための「インタラクティブなUIからコード生成」パラダイムを提案する。このパラダイムに基づき、段階的な事前学習、ファインチューニング、強化学習を経て訓練された視覚言語モデル「UI2CodeN」を提示する。本モデルは、マルチモーダルコード生成における基礎的な性能向上を実現しており、UIからコード生成、UIの編集、UIの仕上げの三つの核心的な機能を統合している。さらに、実行時スケーリング(test-time scaling)を活用したインタラクティブ生成の探索により、複数ターンにわたるフィードバックを体系的に活用可能となる。UIからコード生成およびUI仕上げに関するベンチマークでの実験結果から、UI2CodeNはオープンソースモデルの中でも新たな最先端水準を確立し、Claude-4-SonnetやGPT-5といった代表的なクローズドソースモデルと同等の性能を達成していることが明らかになった。本研究のコードおよびモデルは、https://github.com/zai-org/UI2Code_N にて公開されている。