2달 전

차트 기반 추론: LLM에서 VLM으로 역량 이전

Carbune, Victor ; Mansoor, Hassan ; Liu, Fangyu ; Aralikatte, Rahul ; Baechler, Gilles ; Chen, Jindong ; Sharma, Abhanshu
차트 기반 추론: LLM에서 VLM으로 역량 이전
초록

비전-언어 모델(VLMs)은 다중모달 작업에서 점점 더 강력한 성능을 보이고 있습니다. 그러나, 특히 작은 VLMs의 추론 능력은 여전히 제한적이며, 대형 언어 모델(LLMs)의 경우 많은 개선이 이루어졌습니다. 우리는 LLMs의 능력을 VLMs로 전송하는 기술을 제안합니다. 최근 도입된 ChartQA에서 \citet{chen2023pali3}가 제시한 PaLI3-5B VLM에 적용할 때, 우리의 방법은 최신 기술 수준의 성능을 달성하며, PlotQA와 FigureQA에서도 훨씬 더 우수한 성능을 제공합니다.우리는 먼저 \citet{liu2023deplot}가 제안한 차트-테이블 번역 작업의 개선된 버전을 사용하여 사전 학습 단계를 계속 진행하여 차트 표현을 개선합니다. 그 다음으로, 원래 학습 세트보다 20배 큰 데이터셋 구축을 제안합니다. 일반적인 추론 능력을 향상시키고 수치 연산을 개선하기 위해, 차트의 테이블 표현을 사용하여 추론 경로를 합성합니다. 마지막으로, 우리의 모델은 \citet{hsieh2023distilling}가 소개한 다중태스크 손실 함수를 사용하여 미세 조정됩니다.우리의 변형 모델인 ChartPaLI-5B는 상류 OCR 시스템을 사용하지 않으면서도 10배 더 큰 모델인 PaLIX-55B보다 뛰어난 성능을 보입니다. 또한, 추론 과정이 간단한 프로그램-오브-사고(prompt-of-thought) 프롬프트 \cite{chen2023program}를 통해 더욱 정교하게 개선될 때, 우리의 모델은 최근 도입된 Gemini Ultra와 GPT-4V보다 우수한 성능을 보입니다.