DePlot: 플롯-투-테이블 변환을 통한 원샷 시각적 언어 추론

시각적 언어 such as 차트와 그래프는 인간 세계에서 매우 흔하게 사용됩니다.차트와 그래프를 이해하기 위해서는 강력한 추론 능력이 필요합니다. 이전의 최첨단(SOTA) 모델들은 수만 개의 학습 예제가 최소한 필요했으며, 특히 복잡한 인간 작성 쿼리에 대한 그들의 추론 능력은 여전히 제한적이었습니다. 본 논문에서는 시각적 언어 추론을 위한 첫 번째 원샷(one-shot) 솔루션을 제시합니다. 우리는 시각적 언어 추론의 도전 과제를 두 단계로 분해하였습니다: (1) 그래프-텍스트 변환(plot-to-text translation), (2) 변환된 텍스트에 대한 추론(reasoning over the translated text). 이 방법의 핵심은 플롯 또는 차트 이미지를 선형화된 표(linearized table)로 변환하는 모달리티 전환 모듈(modality conversion module)인 DePlot입니다. DePlot의 출력은 사전 학습된 대형 언어 모델(LLM)에 직접 프롬프트(prompt)로 사용될 수 있으며, LLMs의 소수 샷(few-shot) 추론 능력을 활용할 수 있습니다. DePlot을 얻기 위해, 우리는 통합된 작업 형식과 지표를 설정하여 플롯-테이블 작업(plot-to-table task)을 표준화하고, 이 작업에서 end-to-end로 DePlot을 학습시켰습니다. 이렇게 하면 DePlot은 플러그 앤드 플레이(plug-and-play fashion) 방식으로 LLMs와 함께 즉석에서 사용할 수 있습니다. 28,000개 이상의 데이터 포인트로 fine-tuning된 SOTA 모델과 비교하여, 단 하나의 프롬프트(one-shot prompting)만으로도 DePlot+LLM은 차트 QA 작업에서 인간 작성 쿼리에 대해 fine-tuning된 SOTA보다 24.0% 개선되었습니다.