Command Palette
Search for a command to run...
Chengzhi Xu Yuyang Wang Lai Wei Lichao Sun Weiran Huang

초록
최근, 다중 모드 대형 언어 모델(MLLMs)은 강력한 시각적 이해 능력으로 인해 연구 관심을 더욱 끌고 있습니다. 이들 모델은 다양한 시각적 작업에서 뛰어난 성과를 거두었지만, 차트-코드 생성 작업의 성능은 아직 최적이지 않습니다. 이 작업은 주어진 차트를 재현할 수 있는 실행 가능한 코드를 생성해야 하므로, 정확한 시각적 이해뿐만 아니라 시각적 요소를 구조화된 코드로 정확히 변환하는 능력을 요구합니다. MLLMs에게 이 복잡한 작업을 직접 요청하면 종종 만족스러운 결과가 나오지 않습니다. 이러한 도전 과제를 해결하기 위해, 우리는 {차트IR}이라는 구조화된 지시에 기반한 반복 개선 방법을 제안합니다. 첫째, 우리는 두 가지 작업을 구분합니다: 시각적 이해와 코드 변환. 시각적 이해 부분을 달성하기 위해, 우리는 설명과 차이 두 가지 유형의 구조화된 지시를 설계했습니다. 설명 지시는 참조 차트의 시각적 요소를 포착하며, 차이 지시는 참조 차트와 생성된 차트 사이의 불일치점을 특징화합니다. 이러한 지시는 효과적으로 시각적 특성을 언어 표현으로 변환하여 후속 코드 변환 과정을 용이하게 합니다. 둘째, 전체 차트 생성 파이프라인을 초기 코드 생성 및 반복 개선 두 단계로 분해하여 최종 출력물을 점진적으로 향상시키도록 설계했습니다. 실험 결과는 우리의 방법이 오픈 소스 모델 Qwen2-VL과 폐쇄 소스 모델 GPT-4o 모두에서 다른 방법보다 우수한 성능을 보임을 입증하였습니다.