HyperAIHyperAI

Command Palette

Search for a command to run...

제브라-코트: 병행된 시각 언어 추론을 위한 데이터셋

초록

사람들은 복잡한 문제를 해결할 때 자주 시각적 보조 수단, 예를 들어 다이어그램이나 스케치를 사용한다. 시각적 사고 체인(Visual Chain of Thought, Visual CoT)을 갖춘 멀티모달 모델을 훈련시키는 것은 (1) 기존의 시각적 CoT 성능이 부족하여 강화학습에 방해가 되고, (2) 고품질의 시각적 CoT 학습 데이터가 부족하다는 이유로 어렵다. 우리는 182,384개의 샘플을 포함하는 다양한 대규모 데이터셋인 Zebra-CoT을 소개한다. 이 데이터셋은 논리적으로 일관된 이미지-텍스트 혼합 사고 흐름을 담고 있다. 우리는 스케치나 시각적 사고가 특히 자연스러운 네 가지 작업 범주에 집중한다. 이 범주는 기하학, 물리학, 알고리즘과 같은 과학적 질문부터 2D 시각적 추론 작업인 시각적 검색 및 퍼즐 문제, 3D 추론 작업인 3D 다단계 추론, 몸에 달라붙은 추론 및 로봇 계획, 시각적 논리 문제 및 체스와 같은 전략적 게임에 이르기까지 포함된다. Zebra-CoT 데이터셋에 Anole-7B 모델을 피니튜닝하면 테스트 세트 정확도가 +12% 개선되며, 표준 VLM 기준 평가에서 최대 +13%의 성능 향상이 발생한다. Bagel-7B 모델을 Zebra-CoT에 피니튜닝하면 고품질의 혼합 시각적 추론 체인을 생성하는 모델을 얻을 수 있으며, 이는 Zebra-CoT가 멀티모달 추론 능력을 개발하는 데 효과적임을 입증한다. 우리는 시각적 CoT 개발과 평가를 지원하기 위해 데이터셋과 모델을 오픈소스로 공개한다.


AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
제브라-코트: 병행된 시각 언어 추론을 위한 데이터셋 | 문서 | HyperAI초신경