Command Palette
Search for a command to run...
JanusCoder: Ein Schritt hin zu einer grundlegenden visuell-programmatischen Schnittstelle für Code-Intelligenz
Qiushi Sun Jingyang Gong Yang Liu Qiaosheng Chen Lei Li Kai Chen Qipeng Guo Ben Kao Fei Yuan

Abstract
Der Anwendungsbereich der neuronalen Code-Intelligenz erweitert sich rasch über textbasierten Quellcode hinaus und umfasst nun auch die reichhaltigen visuellen Ausgaben, die Programme generieren. Diese visuelle Dimension ist entscheidend für anspruchsvolle Anwendungen wie flexible Inhaltsgenerierung und präzise, programmgesteuerte Bearbeitung von Visualisierungen. Fortschritte in diesem Bereich sind jedoch durch die Knappheit hochwertiger multimodaler Code-Daten behindert, ein Engpass, der auf Schwierigkeiten bei der Datensynthese und der Qualitätsbewertung beruht. Um diese Herausforderungen anzugehen, leisten wir Beiträge sowohl aus daten- als auch aus modellbasiertem Blickwinkel. Zunächst stellen wir ein vollständiges Synthesetoolkit vor, das wechselseitige Synergien zwischen den Datamodalitäten nutzt, um effizient eine großskalige, hochwertige Datensammlung zu erstellen, die von standardisierten Diagrammen über komplexe interaktive Web-Oberflächen bis hin zu codegesteuerten Animationen reicht. Mit Hilfe dieses Toolkits bauen wir JanusCode-800K auf, die bislang größte multimodale Code-Datensammlung. Sie dient der Trainingsgrundlage für unsere Modelle JanusCoder und JanusCoderV, die eine visuell-programmatische Schnittstelle für die Codegenerierung aus textuellen Anweisungen, visuellen Eingaben oder einer Kombination beider bereitstellen. Unser einheitliches Modell unterscheidet sich deutlich von bisherigen Ansätzen, die spezialisierte Modelle für isolierte Aufgaben entwickeln. Ausführliche Experimente sowohl auf textzentrierten als auch auf visuell-zentrierten Programmieraufgaben belegen die herausragende Leistungsfähigkeit der JanusCoder-Serie; unsere Modelle mit 7B bis 14B Parametern erreichen oder übertreffen sogar die Leistung kommerzieller Lösungen. Darüber hinaus liefert eine umfassende Analyse wertvolle Erkenntnisse zur Harmonisierung von programmmatischer Logik und ihrer visuellen Darstellung. Unser Quellcode und die Modell-Checkpoints sind unter https://github.com/InternLM/JanusCoder verfügbar.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.