HyperAI초신경
8일 전

제브라-코트: 병행된 시각 언어 추론을 위한 데이터셋

Ang Li, Charles Wang, Kaiyu Yue, Zikui Cai, Ollie Liu, Deqing Fu, Peng Guo, Wang Bill Zhu, Vatsal Sharan, Robin Jia, Willie Neiswanger, Furong Huang, Tom Goldstein, Micah Goldblum
제브라-코트: 병행된 시각 언어 추론을 위한 데이터셋
초록

사람들은 복잡한 문제를 해결할 때 자주 시각적 보조 수단, 예를 들어 다이어그램이나 스케치를 사용한다. 시각적 사고 체인(Visual Chain of Thought, Visual CoT)을 갖춘 멀티모달 모델을 훈련시키는 것은 (1) 기존의 시각적 CoT 성능이 부족하여 강화학습에 방해가 되고, (2) 고품질의 시각적 CoT 학습 데이터가 부족하다는 이유로 어렵다. 우리는 182,384개의 샘플을 포함하는 다양한 대규모 데이터셋인 Zebra-CoT을 소개한다. 이 데이터셋은 논리적으로 일관된 이미지-텍스트 혼합 사고 흐름을 담고 있다. 우리는 스케치나 시각적 사고가 특히 자연스러운 네 가지 작업 범주에 집중한다. 이 범주는 기하학, 물리학, 알고리즘과 같은 과학적 질문부터 2D 시각적 추론 작업인 시각적 검색 및 퍼즐 문제, 3D 추론 작업인 3D 다단계 추론, 몸에 달라붙은 추론 및 로봇 계획, 시각적 논리 문제 및 체스와 같은 전략적 게임에 이르기까지 포함된다. Zebra-CoT 데이터셋에 Anole-7B 모델을 피니튜닝하면 테스트 세트 정확도가 +12% 개선되며, 표준 VLM 기준 평가에서 최대 +13%의 성능 향상이 발생한다. Bagel-7B 모델을 Zebra-CoT에 피니튜닝하면 고품질의 혼합 시각적 추론 체인을 생성하는 모델을 얻을 수 있으며, 이는 Zebra-CoT가 멀티모달 추론 능력을 개발하는 데 효과적임을 입증한다. 우리는 시각적 CoT 개발과 평가를 지원하기 위해 데이터셋과 모델을 오픈소스로 공개한다.