Command Palette
Search for a command to run...
MIT/IBM은 150만 개의 다양한 차트 샘플을 생성하는, 현재까지 가장 큰 규모의 합성 차트 데이터 세트인 ChartNet을 공개했습니다.

지난 2년간 멀티모달 대규모 모델의 개발은 기대를 훨씬 뛰어넘었습니다. 이미지 콘텐츠 인식부터 복잡한 문서 이해, 비디오 정보 분석에 이르기까지 시각 언어 모델(VLM)은 끊임없이 그 기능의 한계를 확장해 왔습니다. 그러나 겉보기에는 단순해 보이지만 매우 어려운 시각적 객체 하나가 여전히 많은 고급 모델에서 빈번한 오류를 발생시키는 원인이 되고 있습니다. 바로 차트입니다.
사람에게 막대 그래프, 선 그래프 또는 산점도는 추세, 비교 및 주요 결론을 빠르게 전달할 수 있습니다. 그러나 AI에게 차트는 단순한 이미지가 아닙니다. 모델은 시각적 요소를 인식하는 것뿐만 아니라 축, 데이터 포인트, 범례 및 레이블 간의 관계를 이해하고, 더 나아가 수치 추출, 추세 분석 및 인과 관계 추론까지 수행해야 합니다. 다시 말해, 차트 이해는 시각적, 수치적, 언어적 인지 능력을 아우르는 복잡한 작업이며, 현재의 시각-언어 모델(VLM)은 이러한 작업을 부분적으로만 수행할 수 있습니다.
최근 몇 년 동안 몇몇 데이터셋이 관련 연구 발전을 이끌었지만, 일반적으로 데이터셋은 규모가 작고, 그래프 유형이 제한적이며, 완전한 멀티모달 정보가 부족하다는 세 가지 문제점을 안고 있습니다. 많은 데이터셋은 질문 답변이나 그래프 설명과 같은 단일 작업에만 초점을 맞추거나 핵심 모달리티가 부족하여, 오픈 소스 모델은 복잡한 그래프 추론 작업에서 여전히 상용 시스템에 비해 뒤처지고 있습니다.
이러한 공백을 메우기 위해,ChartNet은 MIT, MIT-IBM 컴퓨팅 연구소, 그리고 IBM 연구소의 수많은 전문가들이 제안했습니다.— 그래프 이해 및 추론 능력을 향상시키기 위해 설계된 수백만 건의 레코드로 구성된 고품질 멀티모달 데이터 세트입니다.
ChartNet은 현재까지 가장 큰 규모의 합성 차트 데이터셋으로, 새로운 코드 기반 합성 프로세스를 통해 24가지 차트 유형과 6가지 플로팅 라이브러리를 아우르는 150만 개의 다양한 차트 샘플을 생성합니다. 광범위한 실험을 통해 ChartNet의 실용성이 입증되었으며, 최적화된 미세 조정 모델이 모든 작업에서 훨씬 더 큰 규모의 모델과 GPT-4o보다 우수한 성능을 보여줍니다.
온라인에서 데이터셋을 사용하세요:https://go.hyper.ai/lGPsc
"ChartNet: 견고한 차트 이해를 위한 백만 개 규모의 고품질 멀티모달 데이터셋"이라는 제목의 관련 연구 결과는 IEEE 컴퓨터 비전 및 패턴 인식 학회에서 발표될 예정입니다.
연구 하이라이트:
ChartNet의 코드 기반 합성 및 생성 프로세스는 차트 이해에 대한 시각적, 구조적, 수치적 및 텍스트 정보를 수집하면서 대규모 차트 샘플 생성을 가능하게 합니다.
ChartNet은 실제 데이터와 수동으로 레이블링된 데이터를 통합하고, 시각적 포인팅 및 보안 분석을 지원하는 특수 하위 집합을 포함하여 모델 학습 및 평가에서 데이터 세트의 가치를 확장합니다.
이 데이터셋에 대한 미세 조정을 통해 차트 재구성, 데이터 추출 및 차트 요약과 같은 작업에서 시각-언어 모델의 성능을 지속적으로 향상시킬 수 있습니다.

서류 주소:
https://hyper.ai/papers/2603.27064
데이터셋: 150만 개의 다중 모드 정렬된 합성 샘플로 구성됨
ChartNet 핵심 데이터 세트는 150만 개의 다중 모달 정렬된 합성 샘플로 구성됩니다.각 샘플에는 차트 이미지, 플로팅 코드, 표 형식 데이터, 자연어 설명 및 연쇄 추론(CoT)이 포함된 질문-답변 쌍이 포함됩니다. 사용된 데이터 속성, 차트 유형 및 플로팅 라이브러리에 대한 전체 개요는 다음 그림에 나와 있습니다.

ChartNet은 그래프 이해를 위한 모든 기능을 제공하기 위해 수동으로 레이블이 지정된 데이터, 실제 그래프, 접지 데이터 및 보안 데이터와 같은 몇 가지 특수 하위 집합도 포함합니다.
수동으로 라벨링된 복합 차트 데이터:이 데이터베이스에는 정렬된 합성 차트 이미지 96,643개, 설명 및 표 형식 데이터가 포함되어 있으며, 이 모든 자료는 엄격한 사람의 검증과 주석 작업을 거쳤습니다.
고품질의 실제 차트 데이터:연구진은 합성 차트 코퍼스를 보완하기 위해 세계은행, 베인앤컴퍼니, 퓨 리서치 센터, 아워 월드 인 데이터 등 세계적으로 유명한 권위 있는 국제 미디어 및 데이터 시각화 기관에서 제공하는 3만 개의 실제 차트를 수집하고 주석을 달았습니다. 이 데이터 모음은 경제, 기술, 지정학, 환경 과학, 사회 동향 등 광범위한 현대적 주제를 다루면서 데이터의 다양성과 현실과의 높은 관련성을 보장합니다. 해석 가능성을 확보하기 위해 정보량이 적거나 품질이 떨어지는 차트는 의도적으로 제거했습니다.
데이터 기반의 QA 구현:현대 시각 모델링(VLM)은 여전히 특정 질문과 관련된 차트 영역 및 구문 요소를 식별하는 데 어려움을 겪고 있습니다. 이러한 문제를 해결하기 위해 연구진은 그라운딩 QA 쌍을 구축했습니다. 먼저, 플로팅 코드 요소(축, 눈금, 격자선, 범례 및 그래픽 블록)에서 기하학적 정보를 고려한 주석을 추출하여 밀도 높은 차트 그라운딩 주석을 생성했습니다. 엔트로피 기반 방법을 사용하여 경계 상자를 추가로 필터링했습니다. 그런 다음, 생성된 그라운딩 주석을 사용하여 각 차트에 대한 템플릿화된 질문 및 답변 세트를 만들어 시각적 요소의 예상 공간 레이아웃과 차트 내 실제 내용 간의 대응 관계를 파악했습니다.
예상 위치는 직렬화된 경계 상자 표현을 사용하여 답변 문자열에 인코딩됩니다. 템플릿은 고유하고 반복되는 시각적 요소를 포함하며, 인덱스, 차트 내 텍스트 레이블, 요소 색상과 같은 시각적 속성을 결합하여 인용 표현을 생성합니다. 생성기는 짧은 답변과 긴 답변을 모두 지원하며 선택적으로 근거 정보를 포함할 수 있습니다. 최종 데이터 세트는 모든 템플릿 유형과 출력 방식을 균일하게 샘플링하여 차트당 하나의 QA 쌍을 생성합니다. 또한 gpt-oss-120b를 사용하여 추론 기반 근거 QA 쌍도 생성됩니다.
보안 데이터:보안 문제를 해결하기 위해 연구원들은 차트 관련 보안 기준에 부합하는 데이터를 생성하도록 데이터 생성 프로세스를 확장하여 모델 출력물의 유해 콘텐츠와 "탈옥" 위험을 줄였습니다.
ChartNet의 핵심 아이디어: 코드 기반 차트 합성으로 자동 생성.
ChartNet 데이터 생성의 핵심 아이디어는 실행 가능한 플로팅 코드를 데이터 시각화를 위한 구조화된 중간 표현으로 사용하여 차트를 프로그래밍 방식으로 생성할 수 있다는 것입니다. 연구원들은 제한된 양의 차트 이미지 데이터("시드")에서 시작하여 시각 언어 모델(VLM)을 사용하여 이러한 차트를 대략적으로 재구성할 수 있는 코드를 출력하는 대규모 코드 기반 자동 차트 생성 프로세스(아래 그림 참조)를 제안했습니다.

코드 기반 차트 보강 프로세스
구체적으로 데이터 생성 프로세스는 다음과 같은 단계를 포함합니다.
① 차트-코드 재구성:VLM은 주어진 차트 이미지 세트를 대략적으로 재구성하는 Python 플로팅 코드를 생성하는 데 사용됩니다. 이 단계에서는 TinyChart 데이터 세트에서 15만 개의 고유한 차트 이미지를 시드로 선택하지만, 이 과정은 시드 선택에 특정한 의존성을 갖지 않습니다.
② 코드 기반 차트 보강:생성된 플로팅 코드를 입력으로 사용하여 대규모 언어 모델(LLM)을 통해 코드를 반복적으로 재작성합니다. 이전 버전과의 관련성을 유지하면서 기본 데이터 값과 레이블을 수정하여 원하는 차트 유형에 더 잘 맞도록 합니다. 아래 그림은 반복적인 코드 개선 및 차트 렌더링 프로세스를 보여줍니다. 이 단계는 데이터셋 확장에 있어 핵심적인 단계이며, 각 시드 이미지는 무수히 많은 변형을 생성할 수 있습니다.

③ 차트 렌더링:생성된 모든 플로팅 코드를 실행하여 차트 이미지를 생성하고, 성공적으로 실행된 스크립트는 해당 이미지와 연결됩니다.
④ 품질 필터링:각 차트 이미지는 VLM을 사용하여 다양한 잠재적 렌더링 결함 범주(예: 텍스트 겹침, 레이블 잘림, 차트 요소 가림 등)를 감지하도록 평가되며, 시각적 문제가 있는 이미지와 해당 플로팅 코드는 제거됩니다.
⑤ 코드 기반 속성 생성:마지막으로, VLM은 차트 이미지-코드 쌍에 대한 추가적인 의미 속성을 생성하는 데 사용됩니다. 데이터 값과 레이블은 코드의 맥락 내에서 차트로부터 추출되며, 표 형식의 데이터 표현이 생성됩니다. 나아가 시각적 정보, 코드 및 표 형식 데이터를 결합하여 근거를 갖춘 차트 설명이 생성됩니다.
이 도구는 모든 그래프 이해 작업에서 상당하고 일관된 개선 효과를 제공합니다.
ChartNet이 모델의 차트 이해 능력을 향상시키는 데 효과적인지 검증하기 위해 연구원들은 ChartNet 데이터셋을 사용하여 초소형(매개변수 10억 이하), 소형(매개변수 40억 이하), 중형(매개변수 70억 이하) 등 다양한 크기의 시각 언어 모델을 학습시켰습니다.
전반적으로 ChartNet 데이터셋에 대한 미세 조정은 모든 차트 이해 작업에서 상당하고 일관된 개선을 가져왔습니다(아래 표 참조). 이러한 개선의 균일성과 규모는 모델 크기와 무관합니다.이는 기존 VLM이 고품질의 멀티모달 그래프 지도 학습 기회를 제공하지 못하는 반면, ChartNet은 이러한 격차를 효과적으로 해소한다는 것을 보여줍니다.

① 차트 재구성
Chart-to-Code 데이터셋으로 학습된 모델들은 코드 실행 속도, 데이터 일관성, 구조/코드 유사성, 이미지 유사성에서 상당한 개선을 보였습니다. 이전에는 차트를 전혀 재구성할 수 없었던 초소형 모델(SmolVLM-256M, Granite-Docling-258M)은 이제 완전한 기능을 갖추게 되었고, 소형 모델(Granite-Vision-2B 등)은 여러 지표에서 90%를 초과하는 거의 완벽한 재구성 성능을 달성했습니다. LLaVA-7B 모델은 데이터 일관성에서 최대 +42.4점 향상을 보였습니다. 이러한 규모 독립적인 경향은 ChartNet의 이미지와 코드 간의 다중 모달 정렬이 모델에 기존 데이터셋에서 부족했던 구조화된 지도 학습을 제공한다는 것을 시사합니다.
② 차트 데이터 추출
ChartNet은 모든 모델이 차트에서 수치 테이블을 직접 추출하는 능력을 크게 향상시켰으며, Granite-Vision-2B가 70.31 TP3T로 최고의 성능을 달성했습니다. 정밀하게 조정된 LLaVA-7B는 41.8 포인트의 성능 향상을 보여주며 모든 오픈 소스 기준선을 능가하고 GPT-4o(46.71 TP3T)보다도 높은 성능을 보였습니다. 이는 코드로 생성된 차트와 CSV 데이터 간의 긴밀한 결합을 통해 모델이 시각적 형상과 기본 수치 구조 모두에 접근할 수 있도록 하는 ChartNet의 가치를 입증합니다.
③ 차트 요약
모든 모델 계열의 요약 품질이 크게 향상되었으며, 증가폭은 +9.5(Qwen2.5-VL-3B)에서 +31.4(Granite-Docling-2B)에 이르렀습니다. 세밀하게 조정된 Granite-Vision-2B는 83.9%를 달성하여 GPT-4o와 표 3에 제시된 모든 오픈 소스 기준 모델(매개변수 크기가 한 자릿수 더 큰 모델 포함)을 능가했습니다. 이는 ChartNet의 합성 요약(코드와 렌더링된 차트를 결합하여 구성)이 차트 설명을 이해하는 데 필요한 구조화되고 의미론적으로 완전한 감독 신호를 제공한다는 것을 보여줍니다.
④ 질문과 답변 CoT 추론을 사용한 질문
복잡하고 다단계적인 추론 작업에서 각 모델은 정확도가 꾸준히 향상되었으며, LLaVA-7B는 가장 큰 향상(+15.17)을 보여 70.3%에 도달하여 전용 차트 추론 모델인 ChartGemma와 모든 유사하거나 더 큰 오픈 소스 모델(GPT-4o 포함)을 능가했습니다.
⑤ 시판 제품과의 비교
아래 표는 ChartNet으로 미세 조정된 모델이 거의 모든 지표에서 더 큰 매개변수를 가진 기성 모델보다 우수한 성능을 보임을 보여줍니다. 미세 조정 후, 20억 또는 70억 개의 매개변수를 가진 모델은 200억~720억 개의 매개변수를 가진 모델보다 일관되게 뛰어난 성능을 나타냅니다. 특히 차트 재구성 및 데이터 추출 작업에서 ChartNet으로 미세 조정된 모델은 GPT-4o를 훨씬 능가합니다.

이는 그래프 이해와 같이 시각, 수치 데이터 및 언어가 밀접하게 연관된 영역에서는 단순히 모델 크기를 늘리는 것보다 고품질의 코드 정렬된 멀티모달 지도 학습을 제공하는 것이 더 효과적임을 시사합니다.
⑥ 공공 벤치마크로의 일반화
아래 표에서 볼 수 있듯이, ChartNet 핵심 데이터셋에 대한 미세 조정 후 모든 모델이 공개 벤치마크에서 상당한 성능 향상을 보였습니다. Granite-Vision-2B는 ChartCap에서 BLEU 점수가 1.6에서 12.4로, ChartMimic-v2에서는 30.8에서 58.4로 향상되었으며, 초소형 모델(SmolVLM-256M)조차도 상당한 성능 향상을 달성했습니다. 이러한 성능 향상은 차트 요약 및 차트-코드 생성 작업 모두에서 일관되게 나타났으며, ChartNet의 다중 모달 정렬 지도 학습이 합성 학습 데이터셋뿐만 아니라 실제 벤치마크에도 효과적으로 적용될 수 있음을 보여줍니다.

ChartNet 합성 데이터의 일반화 능력을 두 가지 실제 공개 벤치마크에서 향상시킵니다.
결론
ChartNet은 차트 이해 분야의 핵심 병목 현상, 즉 이미지, 플로팅된 코드, 수치 데이터, 텍스트 설명 및 추론 궤적을 정렬하기 위한 대규모의 고품질 감독 신호 부족 문제를 해결하는 것을 목표로 합니다. ChartNet은 수치 추론, 시각화 이해, 문서 인텔리전스 및 코드 정렬 분야의 다중 모드 모델링 연구를 위한 확장 가능하고 개방적인 기반 플랫폼을 제공하여 시각적 모델링(VLM)을 "차트를 설명하는 것"에서 "차트에 인코딩된 구조화된 정보를 이해하는 것"으로 발전시키고자 합니다.
"기존의 많은 학습 데이터 세트는 차트에 대한 간단한 질문에 답하는 데에만 초점을 맞췄습니다."라고 MIT 전기공학 및 컴퓨터과학(EECS) 대학원생이자 ChartNet 관련 논문의 제1 저자인 조바나 콘딕은 말했습니다. "저희는 ChartNet을 통해 그 한계를 넘어 차트에 대한 포괄적이고 심층적인 이해를 뒷받침할 수 있는 데이터를 생성하고자 했습니다."
향후 연구진은 더욱 복잡한 데이터를 통합하여 ChartNet을 지속적으로 확장하고, 더 많은 산업 분야에 실질적인 가치를 창출할 계획입니다.
참고문헌:
https://arxiv.org/abs/2603.27064
https://news.mit.edu/2026/mit-researchers-teach-ai-models-to-interpret-charts-0603








