HyperAIHyperAI

Command Palette

Search for a command to run...

VisCodex: Einheitliche multimodale Codegenerierung durch die Integration von Visueller und Codierungsmodelle

Lingjie Jiang Shaohan Huang Xun Wu Yixia Li Dongdong Zhang Furu Wei

Zusammenfassung

Multimodale große Sprachmodelle (MLLMs) haben die Integration von visuellem und textuellem Verständnis erheblich vorangebracht. Ihre Fähigkeit, Code aus multimodalen Eingaben zu generieren, bleibt jedoch begrenzt. In dieser Arbeit stellen wir VisCodex vor, einen einheitlichen Rahmen, der visuelle und Code-Sprachmodelle nahtlos verbindet, um MLLMs starke Fähigkeiten im Bereich der multimodalen Codegenerierung zu verleihen. Durch die Nutzung einer auf Aufgabenvektoren basierenden Modellverschmelzungstechnik integrieren wir ein state-of-the-art-Code-Sprachmodell in ein leistungsstarkes visuelles Sprach-Grundmodell, wobei sowohl die visuelle Verarbeitungsfähigkeit als auch die fortgeschrittenen Codierungskenntnisse erhalten bleiben. Zur Unterstützung von Training und Evaluation führen wir den Multimodal Coding Dataset (MCD) ein – eine großskalige und vielfältige Sammlung aus 598.000 Datensätzen, die hochwertigen HTML-Code, Paare aus Diagrammbildern und zugehörigem Code, bildgestützte StackOverflow-Fragen und Antworten sowie algorithmische Aufgaben umfassen. Darüber hinaus präsentieren wir InfiBench-V, einen neuartigen und anspruchsvollen Benchmark, der speziell entwickelt wurde, um Modelle anhand von visuell reichhaltiger, realweltbezogener Programmieraufgaben zu testen, die eine feine Unterscheidung zwischen textuellem und visuellem Kontext erfordern. Ausführliche Experimente zeigen, dass VisCodex die derzeit beste Leistung unter Open-Source-MLLMs erzielt und sich Modellen wie GPT-4o annähert, was die Wirksamkeit unserer Modellverschmelzungsstrategie und der neu entwickelten Datensätze unterstreicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
VisCodex: Einheitliche multimodale Codegenerierung durch die Integration von Visueller und Codierungsmodelle | Paper | HyperAI