3 个月前

摘要

神经代码智能的范畴正迅速从基于文本的源代码扩展至程序生成的丰富视觉输出。这一视觉维度对于灵活的内容生成、精确的程序驱动可视化编辑等高级应用至关重要。然而，由于高质量多模态代码数据的稀缺，相关进展受到严重制约，这一瓶颈源于数据合成与质量评估方面的技术挑战。为应对这些难题，我们从数据构建与模型设计两个层面做出贡献。首先，我们提出一套完整的合成工具链，通过多模态数据之间的互惠协同机制，高效生成涵盖标准图表、复杂交互式网页UI以及代码驱动动画的大规模、高质量语料库。基于该工具链，我们构建了目前规模最大的多模态代码语料库——JanusCode-800K。该语料库为我们的模型JanusCoder与JanusCoderV的训练提供了支持，使它们能够通过文本指令、视觉输入或二者的结合，实现代码的生成，从而建立统一的“视觉-程序”交互接口。与现有方法中为孤立任务构建专用模型的范式不同，我们的统一模型实现了跨模态协同。在以文本为中心和以视觉为中心的编码任务上进行的大量实验表明，JanusCoder系列模型表现出卓越性能，其中7B至14B规模的模型在多数任务上已达到甚至超越部分商业模型的水平。此外，深入的分析为程序逻辑与视觉表达之间的协调机制提供了关键洞见。相关代码与模型检查点已开源，可访问 https://github.com/InternLM/JanusCoder。

源 PDF