Command Palette
Search for a command to run...
JanusCoder : Vers une interface fondamentale visuelle et programmatique pour l'intelligence du code
Qiushi Sun Jingyang Gong Yang Liu Qiaosheng Chen Lei Li Kai Chen Qipeng Guo Ben Kao Fei Yuan

Résumé
Le champ d’application de l’intelligence du code neuronal s’étend rapidement au-delà du code source basé sur le texte pour inclure les sorties visuelles riches que les programmes produisent. Ce volet visuel est essentiel pour des applications avancées telles que la génération flexible de contenus et l’édition précise des visualisations pilotée par des programmes. Toutefois, les progrès ont été freinés par le manque de données multimodales de haute qualité, un goulot d’étranglement dû aux difficultés de synthèse et d’évaluation de la qualité. Pour relever ces défis, nous apportons des contributions à la fois du point de vue des données et de celui du modèle. Nous introduisons d’abord un outil complet de synthèse qui exploite les synergie réciproques entre les modalités de données afin de produire efficacement un corpus de grande ampleur et de haute qualité, couvrant des graphiques standards jusqu’aux interfaces utilisateur web interactives complexes et aux animations pilotées par le code. Grâce à cet outil, nous construisons JanusCode-800K, le plus grand corpus multimodal de code à ce jour. Ce corpus permet d’entraîner nos modèles, JanusCoder et JanusCoderV, qui établissent une interface visuelle-programmatique pour générer du code à partir d’instructions textuelles, d’entrées visuelles ou d’une combinaison des deux. Notre modèle unifié s’écarte des approches existantes qui reposent sur des modèles spécialisés pour des tâches isolées. Des expérimentations étendues sur des tâches de codage centrées sur le texte comme sur la vision démontrent la supériorité des modèles de la série JanusCoder, les modèles de taille 7B à 14B atteignant ou dépassant même les performances des modèles commerciaux. En outre, une analyse approfondie fournit des éclairages clés sur l’harmonisation de la logique programmatique et de son expression visuelle. Notre code et les points de contrôle (checkpoints) seront disponibles à l’adresse suivante : https://github.com/InternLM/JanusCoder.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.