11일 전

추론 기반 차트 VQA를 위한 데이터 생성자로서의 도구 템플릿과 LLMs

{Shabnam Ghadar, Peng Tang, Bhavan Jasani, Zhuowan Li}
추론 기반 차트 VQA를 위한 데이터 생성자로서의 도구 템플릿과 LLMs
초록

차트 및 플롯과 같은 데이터 시각화를 이해하기 위해서는 시각적 요소와 수치적 정보에 대한 추론이 필요하다. 현재 차트 시각화 질문 응답(Chart VQA) 모델은 추출형 질문에서는 강점을 보이지만, 복잡한 추론을 요구하는 질문에 대해서는 여전히 한계를 보이고 있다. 본 연구에서는 데이터 증강을 통해 이러한 추론 능력의 부족을 해결하고자 한다. 대규모 언어 모델(Large Language Models, LLM)이 강력한 추론 능력을 보이고 있음을 활용하여, 차트 이미지에 대해 질문-답변(annotation)을 자동으로 생성하는 데이터 어노테이터로 활용한다. 본 연구의 핵심 기여는 '단계별 생성(Synthesize Step-by-Step)' 전략에 있다. 이 전략은 LLM 기반 데이터 생성기가 복잡한 질문을 단계별 하위 질문(이유론, rationale)으로 분해하도록 학습시키고, 외부 도구(예: Python)를 활용해 이러한 하위 질문들을 통해 최종 답변을 도출하는 방식이다. 이러한 단계별 생성 절차는 템플릿 기반 QA 생성 파이프라인을 통해 생성된 합성 데이터를 기반으로 학습된다. 실험 결과는 제안된 단계별 생성 전략의 중요성을 입증한다. LLM을 활용한 데이터 증강(LAMENDA)을 통해 훈련함으로써, 차트 VQA 모델의 성능이 크게 향상되어 ChartQA 및 PlotQA 데이터셋에서 최신 기준(SOTA) 성능을 달성하였다. 특히, ChartQA 데이터셋의 인간이 작성한 질문(강력한 추론이 요구됨)에 대해 기존 최고 성능 모델의 정확도를 38%에서 54%로 향상시켰다. 본 연구가 합성 데이터의 잠재력을 부각시키고, 추론이 중심적인 과제에 대해 LLM 기반 데이터 증강 기법의 추가적 탐구를 촉진하기를 기대한다.

추론 기반 차트 VQA를 위한 데이터 생성자로서의 도구 템플릿과 LLMs | 최신 연구 논문 | HyperAI초신경