Command Palette

Search for a command to run...

2달 전

Mini-o3: 시각 검색을 위한 추론 패턴 및 상호작용 횟수의 확장

Xin Lai Junyi Li Wei Li Tao Liu Tianjian Li Hengshuang Zhao

Mini-o3: 시각 검색을 위한 추론 패턴 및 상호작용 횟수의 확장

초록

최근 대규모 다중모달 모델의 발전은 강화학습과 이미지 기반 도구를 결합하여 시각적 문제를 해결하는 데 활용하고 있다. 그러나 기존 오픈소스 접근 방식은 일반적으로 반복적이고 단조로운 사고 패턴을 보이며, 상호작용 횟수도 제한적이어서 탐색적 시도와 오류를 통해 해결이 필요한 어려운 과제에는 부적합하다. 본 연구에서는 도구 기반 상호작용을 확장함으로써 이러한 한계를 극복하고, 수십 단계에 걸친 깊이 있는 다단계 사고를 수행할 수 있는 시스템인 Mini-o3를 제안한다. 이는 도전적인 시각 검색 과제에서 최신 기준(SOTA) 성능을 달성한다. 오픈AI의 o3 스타일 행동을 재현하기 위한 우리의 방법론은 세 가지 핵심 구성 요소로 구성된다. 첫째, 탐색적 사고를 위한 다양한 시각 검색 문제 수천 개를 포함한 ‘시각 탐색 데이터셋(Visual Probe Dataset)’을 구축하였다. 둘째, 깊이 우선 탐색, 시도 오류, 목표 유지 등 다양한 사고 패턴을 보이는 초기 상태(콜드스타트) 경로를 확보하기 위한 반복적 데이터 수집 파이프라인을 개발하였다. 셋째, 강화학습 과정에서 최대 상호작용 횟수에 도달한 응답(과도한 상호작용 응답)에 대해 벌점을 부과하지 않도록 하는 ‘과도한 상호작용 마스킹 전략(over-turn masking strategy)’을 제안하였다. 이는 학습 시 효율성과 추론 시 확장성 사이의 균형을 유지한다. 학습 시 최대 6회 상호작용을 제한했음에도 불구하고, 모델은 추론 시 자연스럽게 수십 단계에 이르는 경로를 생성하며, 상호작용 횟수가 증가할수록 정확도가 향상됨을 확인하였다. 광범위한 실험을 통해 Mini-o3가 풍부한 사고 패턴과 깊이 있는 사고 경로를 생성함으로써 도전적인 시각 검색 문제를 효과적으로 해결함을 입증하였다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
Mini-o3: 시각 검색을 위한 추론 패턴 및 상호작용 횟수의 확장 | 연구 논문 | HyperAI초신경