Command Palette

Search for a command to run...

한 달 전

일반화 가능한 기하학적 이미지 캡션 합성

Yue Xin Wenyuan Wang Rui Pan Ruida Wang Howard Meng et al

일반화 가능한 기하학적 이미지 캡션 합성

초록

다중모달 대규모 언어 모델은 강력한 추론 능력을 요구하는 다양한 실용적 응용 분야에 활용되고 있다. 최근의 기술 발전에도 불구하고, 이러한 모델은 여전히 복잡한 기하 문제를 해결하는 데 어려움을 겪고 있다. 주요 원인은 기하 이미지를 이해하기 위한 고품질의 이미지-텍스트 쌍 데이터셋이 부족하기 때문이다. 또한 대부분의 템플릿 기반 데이터 합성 파이프라인은 정의된 템플릿을 벗어난 질문에 대해 일반화하기 어렵다. 본 논문에서는 데이터 생성 파이프라인에 검증 가능한 보상(Verifiable Rewards)을 활용한 강화학습(RLVR, Reinforcement Learning with Verifiable Rewards)을 보완적 과정으로 도입함으로써 이 격차를 해소한다. 기하학적 관계 50가지로부터 합성된 기하 이미지에 대해 RLVR를 활용하여 캡션을 정제하고, 수학 문제 해결 과제에서 도출된 보상 신호를 기반으로 학습함으로써, 본 파이프라인은 기하 문제 해결의 핵심 특징을 효과적으로 포착할 수 있었다. 이를 통해 더 나은 작업 일반화 성능을 달성하였으며, 비현저한 성능 향상을 이끌어냈다. 더불어, 분포 외(Out-of-distribution) 상황에서도 생성된 데이터셋은 다중모달 대규모 언어 모델의 일반화 추론 능력을 강화하여, MathVista와 MathVerse의 비기하 입력 이미지에 대한 통계, 산술, 대수, 수치 문제에서 정확도가 2.8%~4.8% 향상되었으며, MMMU의 예술, 디자인, 기술, 공학 분야 과제에서도 2.4%~3.9%의 성능 향상을 기록하였다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
일반화 가능한 기하학적 이미지 캡션 합성 | 연구 논문 | HyperAI초신경