10일 전

VisCodex: 시각 및 코드 모델의 융합을 통한 통합 다중모달 코드 생성

Lingjie Jiang, Shaohan Huang, Xun Wu, Yixia Li, Dongdong Zhang, Furu Wei
VisCodex: 시각 및 코드 모델의 융합을 통한 통합 다중모달 코드 생성
초록

다중모달 대규모 언어 모델(Multimodal Large Language Models, MLLMs)은 시각 정보와 텍스트 정보의 통합적 이해에 있어 크게 발전해왔다. 그러나 이러한 모델들이 다중모달 입력으로부터 코드를 생성하는 능력은 여전히 제한적이다. 본 연구에서는 시각 모델과 코드 생성 언어 모델을 유기적으로 통합하여 MLLMs가 강력한 다중모달 코드 생성 능력을 갖도록 하는 통합적 프레임워크인 VisCodex를 제안한다. 작업 벡터 기반 모델 융합 기술을 활용해 최첨단 코드 생성 언어 모델을 강력한 시각-언어 기반 모델에 원활하게 통합함으로써, 시각적 이해 능력과 고도의 코드 생성 능력을 모두 유지하였다. 학습 및 평가를 지원하기 위해, 고품질 HTML 코드, 차트 이미지-코드 쌍, 이미지 보강형 StackOverflow 질문-답변 데이터, 알고리즘 문제 등 다양한 유형의 총 598,000개 샘플로 구성된 대규모 다중모달 코드 데이터셋(Multimodal Coding Dataset, MCD)을 제시한다. 또한, 실제 세계의 시각 정보가 풍부한 프로그래밍 문제를 다루는 데 있어 텍스트와 시각적 맥락을 세밀하게 이해해야 하는 요구를 반영한 새로운 도전적 평가 기준인 InfiBench-V를 제안한다. 광범위한 실험 결과는 VisCodex가 오픈소스 MLLMs 중 최고 성능을 기록하며, GPT-4o와 같은 전용 모델에 근접한 성능을 보임으로써, 본 연구의 모델 융합 전략과 새롭게 제안한 데이터셋의 효과성을 입증하였다.