StructChart: 시각적 차트 이해를 위한 스키마, 메트릭, 및 증강 방법

차트는 다양한 과학 분야의 문헌에서 흔히 발견되며, 독자들이 쉽게 접근할 수 있는 풍부한 정보를 전달합니다. 현재 차트 관련 작업은 시각적인 차트에서 정보를 추출하는 차트 인식 또는 추출된 데이터(예: 표 형태)를 바탕으로 한 차트 추론에 초점을 맞추고 있습니다. 본 논문에서는 StructChart라는 새로운 프레임워크를 소개합니다. 이 프레임워크는 구조화된 트리플 표현(Structured Triplet Representations, STR)을 활용하여 차트 인식과 추론 작업에 대한 통합적이고 라벨 효율적인 접근 방식을 제시하며, 질문 응답 작업뿐만 아니라 다양한 하류 작업에도 일반적으로 적용될 수 있습니다.구체적으로, StructChart는 먼저 차트 데이터를 선형화된 CSV 형태에서 STR로 재구성합니다. 이는 차트 인식과 추론 사이의 작업 간격을 친근하게 줄일 수 있습니다. 또한, 우리는 차트 인식 작업 성능을 정량적으로 평가하기 위한 구조화된 차트 지향 표현 메트릭(Structuring Chart-oriented Representation Metric, SCRM)을 제안합니다. 학습을 보강하기 위해, 우리는 대형 언어 모델(Large Language Models, LLMs)의 잠재력을 탐색하여 차트의 시각적 스타일과 통계적 정보의 다양성을 증가시키는데 활용하였습니다. 다양한 차트 관련 작업에 대한 광범위한 실험은 통합된 차트 인식-추론 패러다임이 차트 이해의 경계를 확장할 수 있는 효과성과 잠재력을 입증하였습니다.