vor 10 Tagen

VisCodex: Einheitliche multimodale Codegenerierung durch die Integration von Visueller und Codierungsmodelle

Lingjie Jiang, Shaohan Huang, Xun Wu, Yixia Li, Dongdong Zhang, Furu Wei

Abstract

Multimodale große Sprachmodelle (MLLMs) haben die Integration von visuellem und textuellem Verständnis erheblich vorangebracht. Ihre Fähigkeit, Code aus multimodalen Eingaben zu generieren, bleibt jedoch begrenzt. In dieser Arbeit stellen wir VisCodex vor, einen einheitlichen Rahmen, der visuelle und Code-Sprachmodelle nahtlos verbindet, um MLLMs starke Fähigkeiten im Bereich der multimodalen Codegenerierung zu verleihen. Durch die Nutzung einer auf Aufgabenvektoren basierenden Modellverschmelzungstechnik integrieren wir ein state-of-the-art-Code-Sprachmodell in ein leistungsstarkes visuelles Sprach-Grundmodell, wobei sowohl die visuelle Verarbeitungsfähigkeit als auch die fortgeschrittenen Codierungskenntnisse erhalten bleiben. Zur Unterstützung von Training und Evaluation führen wir den Multimodal Coding Dataset (MCD) ein – eine großskalige und vielfältige Sammlung aus 598.000 Datensätzen, die hochwertigen HTML-Code, Paare aus Diagrammbildern und zugehörigem Code, bildgestützte StackOverflow-Fragen und Antworten sowie algorithmische Aufgaben umfassen. Darüber hinaus präsentieren wir InfiBench-V, einen neuartigen und anspruchsvollen Benchmark, der speziell entwickelt wurde, um Modelle anhand von visuell reichhaltiger, realweltbezogener Programmieraufgaben zu testen, die eine feine Unterscheidung zwischen textuellem und visuellem Kontext erfordern. Ausführliche Experimente zeigen, dass VisCodex die derzeit beste Leistung unter Open-Source-MLLMs erzielt und sich Modellen wie GPT-4o annähert, was die Wirksamkeit unserer Modellverschmelzungsstrategie und der neu entwickelten Datensätze unterstreicht.